Spark UDF使用详解及代码示例

2018-08-02

前言

本文介绍如何在Spark Sql和DataFrame中使用UDF，如何利用UDF给一个表或者一个DataFrame根据需求添加几列，并给出了旧版（Spark1.x）和新版（Spark2.x）完整的代码示例。

关于UDF：UDF：User Defined Function，用户自定义函数。

1、创建测试用DataFrame

下面以Spark2.x为例给出代码，关于Spark1.x创建DataFrame可在最后的完整代码里查看。

// 构造测试数据，有两个字段、名字和年龄
val userData = Array(("Leo", 16), ("Marry", 21), ("Jack", 14), ("Tom", 18))

//创建测试df
val userDF = spark.createDataFrame(userData).toDF("name", "age")
userDF.show

+-----+---+
| name|age|
+-----+---+
|  Leo| 16|
|Marry| 21|
| Jack| 14|
|  Tom| 18|
+-----+---+

1 2	// 注册一张user表 userDF.createOrReplaceTempView("user")

more >>

展开全文 >>

通过数据库客户端界面工具DBeaver连接Hive

2018-07-13

前言

本文讲解如何通过数据库客户端界面工具DBeaver连接hive，并解决驱动下载不下来的问题。

1、为什么使用客户端界面工具

为什么使用客户端界面工具而不用命令行使用hive

通过界面工具查看分析hive里的数据要方便很多
业务人员没有权限通过命令行连接hive
领导喜欢在界面工具上查看hive里的数据

2、为什么使用DBeaver

其实在网上搜一下，连接hive的工具还有很多，使用DBeaver的原因是因为我之前连接关系型数据库使用的就是DBeaver，正好DBeaver支持连接hive，且个人认为DBeaver确实挺好用的，支持各种关系型数据库，如连接Oracle数据库不需要像plsql那样自己配置连接文件，只需要在界面上输入url、用户名、密码即可，还有就是DBeaver的快捷键和Eclipse是一样的，比如注释、删除一行、复制一行到下一行等。

3、DBeaver下载、安装

之前我一直用的旧版的，现在在官网上下载了最新版的DBeaver，发现界面功能比旧版好用了很多，亲测连hive没有问题。
下载地址：https://dbeaver.io/download/
我下载的免安装版（不带jre），windows64位，大家可以根据自己情况下载对应版本。

more >>

展开全文 >>

HDFS DataNode启动异常:/opt/jdk1.8.0_151/bin/java:权限不够

2018-07-10

前言

这个异常是在在ambari里启动DataNode产生的，其实这个问题很久就发现了，只是没时间去处理，所以之前把发生问题的slave1节点给移除了，现在有时间处理，就又把slave1加上了，所以就有了ambari 异常总结及解决办法里面的问题，这个java权限不够的问题，在添加slave1之后，并安装datanode和nodemanager之后启动服务依然报错。

异常信息：

1
2

/usr/hdp/2.6.4.0-91//hadoop-hdfs/bin/hdfs.distro:行317: /opt/jdk1.8.0_151/bin/java: 权限不够
/usr/hdp/2.6.4.0-91//hadoop-hdfs/bin/hdfs.distro: 第 317 行:exec: /opt/jdk1.8.0_151/bin/java: 无法执行: 权限不够

这个问题在网上找也找不到对应的解决办法，所以有必要单独记录一下，没有放在ambari 异常总结及解决办法，且我认为即使不用ambari，该问题依然可能会发生。

1、详细异常信息

部分截图:

more >>

展开全文 >>

ambari 异常总结及解决办法

2018-07-10

前言

本文总结在使用ambari时产生的异常，以及如何解决的。
如果发生了异常，在界面上不能直观的看出异常的原因，那么我一般通过查看日志的方法解决。
通过下面的命令查看

1	vim /var/log/ambari-server/ambari-server.log

若该日志文件没有异常信息，可在其他日志文件里查找
1、异常一
异常发生在add host并confirm host的时候，会卡住不动，然后看日志会发现异常信息：
1
Error executing bootstrap Cannot create /var/run/ambari-server/bootstrap

more >>

展开全文 >>

spark-submit报错:Application application_1529650293575_0148 finished with failed status

2018-07-06

前言

记录spark-submit提交Spark程序出现的一个异常，以供第一次出现这种异常且不知道原因，该怎么解决的的同学参考。

1、异常信息

Exception in thread "main" org.apache.spark.SparkException: Application application_1529650293575_0148 finished with failed status
	at org.apache.spark.deploy.yarn.Client.run(Client.scala:1187)
	at org.apache.spark.deploy.yarn.Client$.main(Client.scala:1233)
	at org.apache.spark.deploy.yarn.Client.main(Client.scala)
	at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
	at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
	at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
	at java.lang.reflect.Method.invoke(Method.java:498)
	at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:782)
	at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:180)
	at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:205)
	at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:119)
	at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

more >>

展开全文 >>

前言

1、创建测试用DataFrame

前言

1、为什么使用客户端界面工具

2、为什么使用DBeaver

3、DBeaver下载、安装

前言

1、详细异常信息

前言

1、异常一

前言

1、异常信息