Hudi Spark源码学习总结-spark.read.format("hudi").load

2022-08-11

前言

由于工作原因，之前查询Hudi主要是用Hive来查询的，所以对Hive查询Hudi的逻辑比较了解，但是对于Spark查询Hudi的逻辑不太了解。所以现在想要学习一下Spark查询Hudi的大概逻辑，搞清楚它是如何从Spark的源码跳转到Hudi源码执行Hudi查询的逻辑，这样既能搞清楚Spark查询表的逻辑，也能搞清楚Spark查询Hudi的逻辑，也便于在后面使用Kyuubi Spark SQL 时出现问题能更好的定位解决。

版本

Spark 2.4.4
Hudi master 0.12.0-SNAPSHOT 最新代码
（可以借助Spark3 planChangeLog 打印日志信息查看哪些规则生效）

示例代码

先用上篇文章写Hudi数据，再进行查询

import spark.implicits._
val df = Seq((1, "a1", 10, 1000)).toDF("id", "name", "value", "ts")
df.write.format("hudi")
  .option(HoodieWriteConfig.TBL_NAME.key, tableName)
  .option(TABLE_TYPE.key, COW_TABLE_TYPE_OPT_VAL)
  .option(RECORDKEY_FIELD.key, "id")
  .option(PRECOMBINE_FIELD.key, "ts")
  .option(PARTITIONPATH_FIELD.key, "")
  .option(KEYGENERATOR_CLASS_NAME.key, classOf[NonpartitionedKeyGenerator].getName)
  .option(HoodieWriteConfig.INSERT_PARALLELISM_VALUE.key, "1")
  .option(HoodieWriteConfig.UPSERT_PARALLELISM_VALUE.key, "1")
  .mode(SaveMode.Overwrite)
  .save(tmp.getCanonicalPath)

spark.read.format("hudi").load(tmp.getCanonicalPath).show()

more >>

展开全文 >>

Hudi Spark源码学习总结-df.write.format("hudi").save

2022-08-03

前言

在开始学习Hudi的时候，我们知道通过df.write.format("hudi").save可以实现写Hudi，并且写Hudi的逻辑是在HoodieSparkSqlWriter.write实现的，但是始终有一个疑问：它怎么从df.write.format("hudi").save跳到HoodieSparkSqlWriter.write中的呢？本文就是主要来回答这个问题的。

版本

Spark 2.4.4
Hudi 0.12.0-SNAPSHOT，和上篇文章Hudi Spark SQL源码学习总结-CTAS用的Hudi代码一样

示例代码

还是拿源码里的TestCreateTable中的测试语句

import spark.implicits._
val df = Seq((1, "a1", 10, 1000)).toDF("id", "name", "value", "ts")
df.write.format("hudi")
  .option(HoodieWriteConfig.TBL_NAME.key, tableName)
  .option(TABLE_TYPE.key, COW_TABLE_TYPE_OPT_VAL)
  .option(RECORDKEY_FIELD.key, "id")
  .option(PRECOMBINE_FIELD.key, "ts")
  .option(PARTITIONPATH_FIELD.key, "")
  .option(KEYGENERATOR_CLASS_NAME.key, classOf[NonpartitionedKeyGenerator].getName)
  .option(HoodieWriteConfig.INSERT_PARALLELISM_VALUE.key, "1")
  .option(HoodieWriteConfig.UPSERT_PARALLELISM_VALUE.key, "1")
  .mode(SaveMode.Overwrite)
  .save(tmp.getCanonicalPath)

more >>

展开全文 >>

Hudi Spark SQL源码学习总结-CTAS

2022-07-30

前言

上一篇文章Hudi Spark SQL源码学习总结-Create Table总结了Create Table的源码执行逻辑，这一篇继续总结CTAS，之所以总结CTAS，是之前在我提交的一个PR中发现，Spark2和Spark3.2.1版本的CTAS的逻辑不一样，最终走的Hudi实现类也不一样，所以本文分Spark2和Spark3.2.1两个版本分析

不同点

先总结一下Spark2和Spark3.2.1的整体逻辑的不同点

Spark2: visitCreateTable->CreateTable->CreateHoodieTableAsSelectCommand.run
Spark3.2.1: 前提配置了：spark.sql.catalog.spark_catalog=org.apache.spark.sql.hudi.catalog.HoodieCatalog，如果没有配置则和Spark2一样
visitCreateTable->CreateTableAsSelectStatement->isV2Provider->true->CreateTableAsSelect->HoodieCatalog.createHoodieTable
visitCreateTable->CreateTableAsSelectStatement->isV2Provider->false->CreateTable->CreateHoodieTableAsSelectCommand.run

Spark2和Spark3.2.1不同的关键点有两个:

1、配置spark.sql.catalog.spark_catalog=org.apache.spark.sql.hudi.catalog.HoodieCatalog
2、isV2Provider(“hudi”)返回ture

只要有一个不满足，Spark3.2.1的逻辑就和Spark2一样，引进HoodieCatalog和令hudi为V2Provider的PR为： [HUDI-3254] Introduce HoodieCatalog to manage tables for Spark Datasource V2
目前master最新代码已将spark3.2.1的isV2Provider(“hudi”)改为了false,也就是Spark2和Saprk3.2.1的逻辑又一致了，PR：[HUDI-4178] Addressing performance regressions in Spark DataSourceV2 Integration

版本

Hudi https://github.com/apache/hudi/pull/5592 本文基于这个PR对应的代码进行调试分析，因为我就是在贡献这个PR时才发现Spark3.2.1和Saprk2的CTAS的逻辑不同的

more >>

展开全文 >>

Hudi Spark SQL源码学习总结-Create Table

2022-07-20

前言

简要总结Hudi Spark Sql源码执行逻辑，从建表开始。其实从去年开始接触Hudi的时候就研究学习了Hudi Spark SQL的部分源码，并贡献了几个PR，但是完整的逻辑有些地方还没有完全梳理清楚，所以现在想要从头开始学习，搞懂一些知识难点，这样以后看相关源码的时候就不会导致因为一些关键点不懂影响进度。

由于本人能力和精力有限，本文只讲解自己觉得比较关键的点，主要目的是梳理整个流程。

Spark SQL源码

既然是学习Hudi Spark SQL源码，那么肯定离不开Spark SQL源码，所以需要先学习了解Spark SQL的源码，在CSDN上发现一位作者写的几篇文章不错，这几天我也主要是参考他写的这几篇文章并结合源码进行学习的,我把它们放在后面的参考文章中，大家可以参考一下。

版本

Spark 2.4.4
Hudi master分支 0.12.0-SNAPSHOT

虽然在学习Spark SQL源码的时候用的是Spark3.3,但是因为Hudi源码默认的Spark版本是2.4.4，如果改版本在IDEA调试的话比较麻烦，所以是用Spark2.4.4版本，但我和Spark3.3对比了一下，大致逻辑是一样的。

more >>

展开全文 >>

Spark3.12+Kyuubi1.5.2+kyuubi-spark-authz源码编译打包+部署配置HA

2022-07-06

前言

记录Spark3.1.2+Kyuubi1.5.2从源码打包到部署配置过程，虽然之前总结过一篇Kyuubi配置的文章：Kyuubi 安装配置总结，但是这次和之前还是有不同的:

1、Kyuubi版本升级当时最新版本1.4.0，现在要升级到最新版1.5.2，并且1.4.0打包的时候很快完成没有任何问题，1.5.2打包时比较慢，且遇到了比较棘手的问题，这里记录一下解决过程
2、当时没有配置Spark的权限，虽然之前总结了一篇利用Submarin集成Spark-Ranger,但是这次用的不是Submarin,用的是kyuubi自带的kyuubi-spark-authz插件，而且解决了当时没有解决的问题，正好更新一下，之所以不用submarin，是因为submarin在新版本已经被去掉了，不再维护，而kyuubi-spark-authz和submarin的作者是同一个人，且kyuubi一直在维护，即使有问题也可以在社区提问题解决，这样还少学习配置一个组件，减少了维护成本

more >>

展开全文 >>