前言
总结Hudi Spark SQL的使用,本人仍然以Hudi0.9.0版本为例,也会稍微提及最新版的一些改动。Hudi 从0.9.0版本开始支持Spark SQL,是由阿里的pengzhiwei同学贡献的,pengzhiwei目前已不负责Hudi,改由同事YannByron负责,现在又有ForwardXu贡献了很多功能特性,目前好像主要由ForwardXu负责。
三位都是大佬,都是Apache Hudi Committer,膜拜大佬,向大佬学习!!!大佬的github:
- 彭志伟(阿里) pengzhiwei https://github.com/pengzhiwei2018
- 毕岩(阿里) YannByron https://github.com/YannByron
- 徐前进(腾讯) ForwardXu https://github.com/XuQianJin-Stars
当然还有很多其他大佬,如Apache member/Hudi PMC Raymond Xu/许世彦 https://github.com/xushiyan,负责整个Spark模块
配置参数
核心参数:1
2--conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer'
--conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension'
使用
三种方式使用Hudi Spark SQL
more >>