Hudi源码|bootstrap源码分析总结（写Hudi）

2022-10-18

前言

Apache Hudi bootstrap源码简要走读，不了解Hudi bootstrap的可以参考：利用Hudi Bootstrap转化现有Hive表的parquet/orc文件为Hudi表

版本

Hudi 0.12.0
Spark 2.4.4

入口

val bootstrapDF = spark.emptyDataFrame
    bootstrapDF.write.
      format("hudi").
      options(extraOpts).
      option(DataSourceWriteOptions.OPERATION.key, DataSourceWriteOptions.BOOTSTRAP_OPERATION_OPT_VAL).
      ......
      save(basePath)

more >>

展开全文 >>

写Hudi异常：'Not an Avro data file' 解决方法

2022-10-14

前言

记录写Hudi时的一个异常的解决方法，其实这个异常从去年就发现并找到解决方法了，而且已经提交到社区merge了，PR：[HUDI-2675] Fix the exception ‘Not an Avro data file’ when archive and clean。之所以现在又要总结这个异常的处理方法是因为:我们生产环境用的 Hudi0.9.0版本，且没有升级，因为升级Hudi版本可能会有不兼容的问题，需要测试，比较费时，所以目前还没有升级版本，而这个PR合入的版本为0.11.0，所以本文主要总结在0.9.0版本如何解决这个问题，当然也适用于0.11.0版本之前的其他有同样问题的版本。

异常信息

archive和clean时都会有这个异常，主要异常信息：

1	Caused by: java.io.IOException: Not an Avro data file

more >>

展开全文 >>

利用Hudi Bootstrap转化现有Hive表的parquet/orc文件为Hudi表

2022-10-12

前言

在最开始学习Hudi源码时，就发现了Hudi有一个Bootstrap功能，但是一直没用过，通过官网文档https://hudi.apache.org/cn/docs/migration_guide/可知,它可以将现有的表件转化为Hudi表，而且有两种类型METADATA_ONLY和FULL_RECORD，但是文档并不详细，比如这两种类型的区别具体是啥，支持哪些文件类型的源表。于是带着这些疑问来学习一下它是如何使用的以及源码原理的实现，这样可以更全面的了解Hudi。

版本

Hudi 0.12.0
Spark 2.4.4/3.1.2

支持的文件类型

如题，目前只支持两种文件类型：parquet和orc,对于其他格式的Hive表，比如text就不能用Bootstrap进行转化了
其实官方文档并没有说明支持哪些类型，我们可以在源码里找到答案：
more >>

展开全文 >>

Flink 读写 Ceph S3入门学习总结

2022-10-01

前言

首先安装好Ceph,可以参考我前面的文章Ceph分布式集群安装配置

版本

Flink: 1.10.1
hadoop: hdp版本 3.1.1.3.1.0.0-78

jar包

flink-s3-fs-hadoop-1.10.1.jar，从maven仓库下载即可，下载地址：https://mvnrepository.com/artifact/org.apache.flink/flink-s3-fs-hadoop，找到对应的版本下载即可
然后在$FLINK_HOME/plugins目录下创建文件夹s3-fs-hadoop，将下载的flink-s3-fs-hadoop-1.10.1.jar拷贝到该目录下

Flink Shell 读写

我这个版本的Flink是有scala-shell终端的，别的版本可能没有，路径 bin/start-scala-shell.sh

配置flink-conf.yaml

添加配置（Shell我们采用模式yarn-per-job）：

execution.target: yarn-per-job
s3.access.key: access_key
s3.secret.key: secret_key
s3.endpoint: ip:7480
s3.connection.ssl.enabled: false

more >>

展开全文 >>

Spark 读写 Ceph S3入门学习总结

2022-09-30

前言

首先安装好Ceph,可以参考我上篇文章Ceph分布式集群安装配置

版本

spark: 2.4.5
hadoop: hdp版本 3.1.1.3.1.0.0-78

spark-shell读写S3

jar包配置

hadoop-aws-3.1.1.3.1.0.0-78.jar 注意版本要和hadoop版本对应
aws-java-sdk-s3-1.12.22.jar
aws-java-sdk-core-1.12.22.jar
aws-java-sdk-dynamodb-1.12.22.jar
可能还需要：
hadoop-client-api-3.1.1.3.1.0.0-78.jar
hadoop-client-runtime-3.1.1.3.1.0.0-78.jar

将上面的jar包拷贝到$SPARK_HOME/jars
more >>

展开全文 >>