Hudi DeltaStreamer使用总结

2022-06-12

前言

总结如何利用Hudi DeltaStreamer工具从外部数据源读取数据并写入新的Hudi表，HoodieDeltaStreamer是hudi-utilities-bundle的一部分，按照Apache Hudi 入门学习总结,将hudi-spark-bundle包拷贝至$SPARK_HOME/jars目录下即可。

HoodieDeltaStreamer提供了从DFS或Kafka等不同来源进行摄取的方式，并具有以下功能。

从Kafka单次摄取新事件，从Sqoop、HiveIncrementalPuller输出或DFS文件夹中的多个文件增量导入
支持json、avro或自定义记录类型的传入数据
管理检查点，回滚和恢复
利用DFS或Confluent schema注册表的Avro模式。
支持自定义转换操作
除了上述官网说的几项，也支持读取Hive表等（历史数据）转化Hudi表，源码里还有其他的工具类，可以自行查阅源码发掘

more >>

展开全文 >>

Hudi Spark SQL总结

2022-05-13

前言

总结Hudi Spark SQL的使用，本人仍然以Hudi0.9.0版本为例，也会稍微提及最新版的一些改动。Hudi 从0.9.0版本开始支持Spark SQL，是由阿里的pengzhiwei同学贡献的，pengzhiwei目前已不负责Hudi,改由同事YannByron负责，现在又有ForwardXu贡献了很多功能特性，目前好像主要由ForwardXu负责。
三位都是大佬，都是Apache Hudi Committer，膜拜大佬，向大佬学习！！！大佬的github:

彭志伟（阿里） pengzhiwei https://github.com/pengzhiwei2018
毕岩（阿里） YannByron https://github.com/YannByron
徐前进（腾讯） ForwardXu https://github.com/XuQianJin-Stars

当然还有很多其他大佬，如Apache member/Hudi PMC Raymond Xu/许世彦 https://github.com/xushiyan,负责整个Spark模块

配置参数

核心参数：

1 2	--conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' --conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension'

使用

三种方式使用Hudi Spark SQL

more >>

展开全文 >>

Apache Hudi 入门学习总结

2022-05-12

前言

学习和使用Hudi近一年了，由于之前忙于工作和学习，没时间总结，现在从头开始总结一下，先从入门开始

Hudi 概念

Apache Hudi 是一个支持插入、更新、删除的增量数据湖处理框架，有两种表类型：COW和MOR，可以自动合并小文件，Hudi自己管理元数据，元数据目录为.hoodie,
具体的概念可以查看官网https://hudi.apache.org/cn/docs/0.9.0/overview

Hudi 学习

Hudi 官网 https://hudi.apache.org/cn/docs/0.9.0/overview/(因本人最开始学习时Hudi的版本为0.9.0版本，所以这里列的也是0.9.0的连接)
Hudi 官方公众号号：ApacheHudi （Hudi PMC leesf 运营的）,自己搜索即可，这里不贴二维码了
Github https://github.com/leesf/hudi-resources 这个是Hudi PMC leesf整理的公众号上的文章，PC 浏览器上看比较方便
GitHub 源码 https://github.com/apache/hudi 想要深入学习，还是得看源码并多和社区交流

more >>

展开全文 >>

Hudi Clean Policy 清理策略实现分析

2022-04-19

前言

总结Hudi Clean Policy清理策略,从源码层面分析如何实现，上一篇文章Hudi Clean 清理文件实现分析从源码层面分析总结了Hudi Clean的整体流程，但是对于和策略有关的获取要删除的文件列表部分没有深入分析，这一篇详细分析KEEP_LATEST_COMMITS策略是如何实现的。

getEarliestCommitToRetain

获取最早需要保留的commit
KEEP_LATEST_FILE_VERSIONS: 返回空
KEEP_LATEST_COMMITS：如果目前完成状态的commit数小于等于hoodie.cleaner.commits.retained，则返回空，否则，返回倒数第hoodie.cleaner.commits.retained(默认10)个.commit

/**
 * Returns earliest commit to retain based on cleaning policy.
 * 根据清理策略返回最早的需要保留的commit
 */
public Option<HoodieInstant> getEarliestCommitToRetain() {
  Option<HoodieInstant> earliestCommitToRetain = Option.empty();
  // 获取最大保留commit次数，默认值10，配置参数为`hoodie.cleaner.commits.retained`
  int commitsRetained = config.getCleanerCommitsRetained();
  if (config.getCleanerPolicy() == HoodieCleaningPolicy.KEEP_LATEST_COMMITS
      && commitTimeline.countInstants() > commitsRetained) {
    // 如果清理策略为KEEP_LATEST_COMMITS,且commit的总数大于commitsRetained
    // 那么最早需要保留的commit为最新的第10个commit,也就倒数第10个
    // commitTimeline.instants是按照时间从小到大排序的，具体实现在`HoodieTableMetaClient.scanHoodieInstantsFromFileSystem`
    // 假如commit为1、2、3...11,那么`commitTimeline.countInstants() - commitsRetained`等于1，
    // 也就是返回commitTimeline.instants.get(1),返回`commit 2`(下标从0开始)，也就是倒数第10个
    // 当策略为KEEP_LATEST_FILE_VERSIONS，直接返回空
    earliestCommitToRetain = commitTimeline.nthInstant(commitTimeline.countInstants() - commitsRetained);
  }
  return earliestCommitToRetain;
}

more >>

展开全文 >>

Hudi Clean 清理文件实现分析

2022-04-18

前言

源码层面总结分析Hudi Clean是如何实现的，不了解Hudi Clean的可以先看这篇：一文彻底理解Apache Hudi的清理服务。
Hudi Clean主要是清理删除不需要的历史文件，可以根据实际业务需要配置参数，不能影响查询，比如某个查询语句正在用某个文件，Clean如果删除了这个文件，查询就会报错。
这里只是删除历史文件，Hudi的文件是有多个版本的，不管配置什么参数，使用什么策略，都不会删除当前最新版本的文件。
Hudi 0.9.0版本有两种清理策略KEEP_LATEST_COMMITS和KEEP_LATEST_FILE_VERSIONS,默认为KEEP_LATEST_COMMITS
KEEP_LATEST_COMMITS：简单讲就是根据commit的次数，默认保留最新的10个commit的所有文件，对于10个之前的文件只保留最新版本的文件，历史文件全部删除
KEEP_LATEST_FILE_VERSIONS：简单讲就是保留文件的版本数，默认保留三个版本
具体的可以看上面的那篇公众号文章

目前最新版本0.11.0 添加了一个新的策略KEEP_LATEST_BY_HOURS:根据小时数清理，默认保留最近24小时的文件，具体实现请查看PR：[HUDI-349] Added new cleaning policy based on number of hours

本文以Hudi 0.9.0 Java Client COW表进行分析

more >>

展开全文 >>