前言
总结Hudi Spark SQL的使用,本人仍然以Hudi0.9.0版本为例,也会稍微提及最新版的一些改动。Hudi 从0.9.0版本开始支持Spark SQL,是由阿里的pengzhiwei同学贡献的,pengzhiwei目前已不负责Hudi,改由同事YannByron负责,现在又有ForwardXu贡献了很多功能特性。
三位都是大佬,都是Apache Committer(YannByron马上),膜拜大佬,向大佬学习!!!大佬的github:
- 彭志伟(阿里) pengzhiwei https://github.com/pengzhiwei2018
- 毕言(阿里 YannByron https://github.com/YannByron
- 许前进(腾讯) ForwardXu https://github.com/XuQianJin-Stars
当然还有很多其他大佬,如Apache member/Hudi PMC xushiyan/Raymond Xu https://github.com/xushiyan,负责整个Spark模块
配置参数
核心参数:
- –conf ‘spark.serializer=org.apache.spark.serializer.KryoSerializer’
- –conf ‘spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension’
使用
三种方式使用Hudi Spark SQL
more >>