Hudi查询类型/视图总结

2022-06-29

前言

上面文章Hive增量查询Hudi表提到Hudi表有读优化视图和实时视图，其实当时并没有完全掌握，所以现在单独学习总结。Hudi官网文档中文称之为视图，其实英文为query types翻译过来为查询类型

Query types

Hudi 支持下面三种视图

Snapshot Queries 快照查询/实时视图 Queries see the latest snapshot of the table as of a given commit or compaction action. In case of merge on read table, it exposes near-real time data(few mins) by merging the base and delta files of the latest file slice on-the-fly. For copy on write table, it provides a drop-in replacement for existing parquet tables, while providing upsert/delete and other write side features. 在此视图上的查询可以查看给定提交或压缩操作时表的最新快照。对于读时合并表（MOR表）该视图通过动态合并最新文件切片的基本文件(例如parquet)和增量文件(例如avro)来提供近实时数据集（几分钟的延迟）。对于写时复制表（COW表），它提供了现有parquet表的插入式替换，同时提供了插入/删除和其他写侧功能。
Incremental Queries 增量查询/增量视图，也就是上篇文章讲的增量查询 Queries only see new data written to the table, since a given commit/compaction. This effectively provides change streams to enable incremental data pipelines. 对该视图的查询只能看到从某个提交/压缩后写入数据集的新数据。该视图有效地提供了更改流，来支持增量数据管道。
Read Optimized Queries 读优化查询/读优化视图 : Queries see the latest snapshot of table as of a given commit/compaction action. Exposes only the base/columnar files in latest file slices and guarantees the same columnar query performance compared to a non-hudi columnar table. 在此视图上的查询将查看给定提交或压缩操作中数据集的最新快照。该视图仅将最新文件切片中的基本/列文件暴露给查询，并保证与非Hudi列式数据集相比，具有相同的列式查询性能。

more >>

展开全文 >>

Hive增量查询Hudi表

2022-06-27

前言

简单总结如何利用Hive增量查询Hudi表

同步Hive

我们在写数据时，可以配置同步Hive参数，生成对应的Hive表，用来查询Hudi表，具体来说，在写入过程中传递了两个由table name命名的Hive表。例如，如果table name = hudi_tbl，我们得到

hudi_tbl 实现了由 HoodieParquetInputFormat 支持的数据集的读优化视图，从而提供了纯列式数据。
hudi_tbl_rt 实现了由 HoodieParquetRealtimeInputFormat 支持的数据集的实时视图，从而提供了基础数据和日志数据的合并视图。

上面的两条对比摘自官网，这里解释一下：其中实时视图_rt表只有在MOR表同步Hive元数据时才会有,并且hudi_tbl在表类型为MOR时并且为配置skipROSuffix=true时才为读优化视图，当为false(默认为false)时，读优化视图应该为hudi_tbl_ro,当表类型为COW时，hudi_tbl应该为实时视图，所以官网对这一块解释有一点问题大家注意

Hive查询Hudi

按照我之前总结的Apache Hudi 入门学习总结中Hive和Tez部分配置，就可以在Hive命令行里用Hive SQL查询Hudi表了

增量查询

修改配置hive-site.xml

在Hive SQL白名单里添加hoodie.,其他均为已存在的配置，还可以根据需要添加其他白名单，如：`tez.|parquet.|planner.`

1	hive.security.authorization.sqlstd.confwhitelist.append hoodie.\|mapred.\|hive.\|mapreduce.\|spark.*

设置参数

以表名为hudi_tbl为例：
连接Hive connect/Hive Shell

设置该表为增量表

1	set hoodie.hudi_tbl.consume.mode=INCREMENTAL;

设置增量开始的时间戳（不包含）,作用：起到文件级别过滤，减少map数。

1	set hoodie.hudi_tbl.consume.start.timestamp=20211015182330;

设置增量消费的commit次数，默认设置为-1即可，表示增量消费到目前新数据。

1	set hoodie.hudi_tbl.consume.max.commits=-1;

自己根据需要修改commit次数

查询语句

1	select * from hudi_tbl where `_hoodie_commit_time` > "20211015182330";

因小文件合并机制，在新的commit时间戳的文件中，包含旧数据，因此需要再加where做二次过滤。

注：这里的设置设置参数有效范围为connect session
Hudi 0.9.0版本只支持表名参数，不支持数据库限定，这样设置了hudi_tbl为增量表后，所有数据库的该表名的表查询时都为增量查询模式，起始时间等参数为最后一次设定值，在后面的新版本中，添加了数据库限定，如hudi数据库

展开全文 >>

Hadoop源码编译打包

2022-06-22

前言

记录总结Hadoop源码编译打包过程，根据源码里的文档，一开始以为不支持在Windows系统上打包，只支持Unix和Mac，所以这里我在自己虚拟机centos7系统上编译，后来在文档后面部分才发现也支持在Windows上编译，不过还需要安装Visual Studio 2010，可能不如还不如在虚拟机上编译简单，如果想尝试在Windows上编译，可以看源码里的文档BUILDING.txt中Building on Windows的部分

代码

因之前没有下载过hadoop的源码，所以需要先下载hadoop的源码

1	git clone https://github.com/apache/hadoop.git

more >>

展开全文 >>

Hudi DeltaStreamer使用总结

2022-06-12

前言

总结如何利用Hudi DeltaStreamer工具从外部数据源读取数据并写入新的Hudi表，HoodieDeltaStreamer是hudi-utilities-bundle的一部分，按照Apache Hudi 入门学习总结,将hudi-spark-bundle包拷贝至$SPARK_HOME/jars目录下即可。

HoodieDeltaStreamer提供了从DFS或Kafka等不同来源进行摄取的方式，并具有以下功能。

从Kafka单次摄取新事件，从Sqoop、HiveIncrementalPuller输出或DFS文件夹中的多个文件增量导入
支持json、avro或自定义记录类型的传入数据
管理检查点，回滚和恢复
利用DFS或Confluent schema注册表的Avro模式。
支持自定义转换操作
除了上述官网说的几项，也支持读取Hive表等（历史数据）转化Hudi表，源码里还有其他的工具类，可以自行查阅源码发掘

more >>

展开全文 >>

Hudi Spark SQL总结

2022-05-13

前言

总结Hudi Spark SQL的使用，本人仍然以Hudi0.9.0版本为例，也会稍微提及最新版的一些改动。Hudi 从0.9.0版本开始支持Spark SQL，是由阿里的pengzhiwei同学贡献的，pengzhiwei目前已不负责Hudi,改由同事YannByron负责，现在又有ForwardXu贡献了很多功能特性，目前好像主要由ForwardXu负责。
三位都是大佬，都是Apache Hudi Committer，膜拜大佬，向大佬学习！！！大佬的github:

彭志伟（阿里） pengzhiwei https://github.com/pengzhiwei2018
毕岩（阿里） YannByron https://github.com/YannByron
徐前进（腾讯） ForwardXu https://github.com/XuQianJin-Stars

当然还有很多其他大佬，如Apache member/Hudi PMC Raymond Xu/许世彦 https://github.com/xushiyan,负责整个Spark模块

配置参数

核心参数：

1 2	--conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' --conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension'

使用

三种方式使用Hudi Spark SQL

more >>

展开全文 >>