前言
本文介绍如何在Spark Sql和DataFrame中使用UDF,如何利用UDF给一个表或者一个DataFrame根据需求添加几列,并给出了旧版(Spark1.x)和新版(Spark2.x)完整的代码示例。
- 关于UDF:UDF:User Defined Function,用户自定义函数。
1、创建测试用DataFrame
下面以Spark2.x为例给出代码,关于Spark1.x创建DataFrame可在最后的完整代码里查看。1
2
3
4
5
6// 构造测试数据,有两个字段、名字和年龄
val userData = Array(("Leo", 16), ("Marry", 21), ("Jack", 14), ("Tom", 18))
//创建测试df
val userDF = spark.createDataFrame(userData).toDF("name", "age")
userDF.show
1 | +-----+---+ |
1 | // 注册一张user表 |