前言
学习和使用Hudi近一年了,由于之前忙于工作和学习,没时间总结,现在从头开始总结一下,先从入门开始
Hudi 概念
Apache Hudi 是一个支持插入、更新、删除的增量数据湖处理框架,有两种表类型:COW和MOR,可以自动合并小文件,Hudi自己管理元数据,元数据目录为.hoodie
,
具体的概念可以查看官网https://hudi.apache.org/cn/docs/0.9.0/overview
Hudi 学习
- Hudi 官网 https://hudi.apache.org/cn/docs/0.9.0/overview/(因本人最开始学习时Hudi的版本为0.9.0版本,所以这里列的也是0.9.0的连接)
- Hudi 官方公众号号:ApacheHudi (Hudi PMC leesf 运营的),自己搜索即可,这里不贴二维码了
- Github https://github.com/leesf/hudi-resources 这个是Hudi PMC leesf整理的公众号上的文章,PC 浏览器上看比较方便
- GitHub 源码 https://github.com/apache/hudi 想要深入学习,还是得看源码并多和社区交流