Flink SQL通过Hudi HMS Catalog读写Hudi并同步Hive表（强烈推荐这种方式）

2022-11-02

前言

上篇文章Flink SQL操作Hudi并同步Hive使用总结总结了如何使用Flink SQL读写Hudi并同步Hive，介绍了创建表的各种方式，但是每一种方式都不太完美。本文介绍一种比较完美的方式，通过Hudi HMS Catalog读写Hudi并同步Hive表，这里的Hudi HMS Catalog实际上就是通过上篇文章最后提到的HoodieHiveCatalog实现的，PR：[HUDI-4098]Support HMS for flink HudiCatalog,2022年7月18 merge，也就是从Hudi0.12.0版本开始支持(我确认了一下0.11.1版本没有)，如果大家要使用的话，必须升级到0.12.0+，本文使用Hudi master 0.13.0-SNAPSHOT。

Flink Hudi HMS Catalog的好处

既然推荐这种方式，那么先说一下它的好处吧。好处是它可以像Spark SQL创建表一样，直接将表建立在Hive中，并且表结构与Hive SQL和Spark SQL兼容，也就是Flink Hudi HMS Catalog中创建的表，可以同时使用Flink SQL、Hive SQL、Spark SQL查询，也可以同时使用Flink SQL、Spark SQL写Hudi。不像上篇文章中介绍的方式，Flink SQL写Hudi的表不能被Hive/Spark使用，只能通过同步表的方式。另外在Flink Hudi HMS Catalog中和Spark SQL一样默认开启同步Hive,也就是对于MOR表默认会同步创建对应的_ro表和_rt表，至于COW表因为同步的表名和创建的表名一样，所以读写是同一张表。总之和Spark SQL创建表、读写一致。

版本

Flink 1.14.3
Hudi master 0.13.0-SNAPSHOT

本文采用Flink yarn-session模式，不会的可以参考：Flink SQL 客户端查询Hive配置及问题解决

more >>

展开全文 >>

Hudi master 0.13.0-SNAPSHOT Win10 打包异常解决

2022-11-01

前言

我一直是在Win10本地编译Hudi包的，因为这样可以直接在IDEA里修改并调试源码，但是前段时间打包Hudi master代码时，发现在Win10 本地打包出现了异常，原因是这个PR：https://github.com/apache/hudi/pull/6135 引入了proto,需要使用protoc编译.proto文件，使用的是maven的protoc-jar-maven-plugin，但是通过maven下载的protoc.exe有问题，所以打包失败。

具体异常

打包命令

1	mvn clean package -DskipTests

more >>

展开全文 >>

Flink SQL操作Hudi并同步Hive使用总结

2022-10-31

前言

记录总结自己第一次如何使用Flink SQL读写Hudi并同步Hive，以及遇到的问题及解决过程。

关于Flink SQL客户端如何使用可以参考：Flink SQL 客户端查询Hive配置及问题解决

版本

Flink 1.14.3
Hudi 0.12.0/0.12.1

本文采用Flink yarn-session模式，不会的可以参考之前的文章。

Hudi包

下载地址：https://repo1.maven.org/maven2/org/apache/hudi/hudi-flink1.14-bundle/0.12.1/hudi-flink1.14-bundle-0.12.1.jar

如果想同步Hive的话，就不能使用上面下载的包了，必须使用profileflink-bundle-shade-hive自己打包,这里参考官网：https://hudi.apache.org/cn/docs/syncing_metastore,打包命令

## Hive3
mvn clean package -DskipTests -Drat.skip=true -Pflink-bundle-shade-hive3  -Dflink1.14 -Dscala-2.12
## Hive2
mvn clean package -DskipTests -Drat.skip=true -Pflink-bundle-shade-hive2  -Dflink1.14 -Dscala-2.12
## Hive1
mvn clean package -DskipTests -Drat.skip=true -Pflink-bundle-shade-hive1  -Dflink1.14 -Dscala-2.12

为了避免不必要的麻烦，最好自己修改一下对应的profile中的Hive版本，比如我们环境的Hive版本为HDP的3.1.0.3.1.0.0-78，我们将hive.version对应的值改为3.1.0.3.1.0.0-78再打包就可以了。
more >>

展开全文 >>

Hudi Java Client总结|读取Hive写Hudi代码示例

2022-10-26

前言

Hudi除了支持Spark、Fink写Hudi外，还支持Java客户端。本文总结Hudi Java Client如何使用，主要为代码示例，可以实现读取Hive表写Hudi表。当然也支持读取其他数据源，比如mysql，实现读取mysql的历史数据和增量数据写Hudi。

版本

Hudi 0.12.0

功能支持

支持insert/upsert/delete，暂不支持bulkInsert
目前仅支持COW表
支持完整的写Hudi操作，包括rollback、clean、archive等

more >>

展开全文 >>

开源经验分享 | 如何从一名小白成为Apache Hudi Contributor

2022-10-22

前言

参与Apache Hudi开源有一年多的时间了，马上1024了，虽然距离成为Apache Hudi Commiter还有很遥远的距离，但还是想跟大家分享一下自己的开源经验，讲一下自己如何从开源小白成为Apache Hudi Contributor的。

PR

如何提交PR，可以参考我转载的这篇：一行代码成为Apache Contributor,这篇文章讲述了怎么提交PR，怎么邮箱订阅以及Jira准备等，详细过程我就不再阐述了，这篇文章主要想分享自己的经验。

Contributor

我自己之前连Contributor是啥都不知道，其实只要你向社区提交过代码也就是在GitHub上提过PR并且你的代码被merge了，你就是Contributor了，再往上还有Commiter、PMC等，这些我之前都没听过，一般来说你贡献的代码比较多，比如贡献过一个比较大的模块如Hudi Spark SQL,或者你可以负责一个模块，经过PMC的提名、投票等，通过的话就会成为Commiter了，根据我的经验，当贡献代码行数过万时成为Commiter就比较有希望了，当然不是绝对的。Commiter有专门的Apache 账户，有权限merge代码，至于PMC，大家可以自己去了解。Apache Hudi Commiter列表地址：https://hudi.apache.org/cn/community/team

more >>

展开全文 >>