Flink 源码阅读笔记（2）- JobGraph 的生成

2023-09-01

前言

前面的文章我们介绍了 StreamGraph 的生成，这个实际上只对应 Flink 作业在逻辑上的执行计划图。Flink 会进一步对 StreamGraph 进行转换，得到另一个执行计划图，即 JobGraph。

JobVertex

在 StreamGraph 中，每一个算子（Operator）对应了图中的一个节点（StreamNode）。StreamGraph 会被进一步优化，将多个符合条件的节点串联（Chain）在一起形成一个节点，从而减少数据在不同节点之间流动所产生的序列化、反序列化、网络传输的开销。多个算子被 chain 在一起的形成的节点在 JobGraph 中对应的就是 JobVertex。

每个 JobVertex 中包含一个或多个 Operators。 JobVertex 的主要成员变量包括

/** The ID of the vertex. */
private final JobVertexID id;

/** The alternative IDs of the vertex. */
private final ArrayList<JobVertexID> idAlternatives = new ArrayList<>();

/** The IDs of all operators contained in this vertex. */
private final ArrayList<OperatorID> operatorIDs = new ArrayList<>();

/** The alternative IDs of all operators contained in this vertex. */
private final ArrayList<OperatorID> operatorIdsAlternatives = new ArrayList<>();

/** List of produced data sets, one per writer */
private final ArrayList<IntermediateDataSet> results = new ArrayList<IntermediateDataSet>();

/** List of edges with incoming data. One per Reader. */
private final ArrayList<JobEdge> inputs = new ArrayList<JobEdge>();

/** Number of subtasks to split this task into at runtime.*/
private int parallelism = ExecutionConfig.PARALLELISM_DEFAULT;

more >>

展开全文 >>

Hudi Flink SQL源码调试学习（二）- Transformation/StreamOperator总结 - StreamGraph和JobGraph的生成过程

2023-08-29

前言

和上篇文章Hudi Flink SQL源码调试学习（一）一样：本着学习hudi-flink源码的目的，利用之前总结的文章中的代码进行调试,记录调试学习过程中主要的步骤及对应源码片段。

本文主要总结 Flink 的 Transformation、StreamOperator, 写Hudi与 Transformation、StreamOperator的关系以及Hudi有哪些自定义的 StreamOperator，还有Flink的四层执行图以及 StreamGraph 和 JobGraph 的生成构建过程。

版本

Flink 1.15.4
Hudi 0.13.0

Transformation & StreamOperator

通过阅读Hudi源码，发现写Hudi的主要逻辑在Pipelines中的hoodieStreamWrite、append、bulkInsert、compact、cluster等方法中。而这几个方法的主要逻辑都用到了transform这个方法，transform返回结果为DataStream,执行完transform方法后最终会执行dataStream.addSink完成写Hudi逻辑。而transform和addSink方法又主要与Transformation、StreamOperator(StreamOperatorFactory)这两个类有关，实际上写Hudi的主要逻辑就是在Hudi自定义的StreamOperator和SinkFunction中实现的。

more >>

展开全文 >>

Flink 源码阅读笔记（1）- StreamGraph 的生成

2023-08-25

本文为转载文章，原文地址：https://blog.jrwang.me/2019/flink-source-code-streamgraph/ 作者：jrthe42

前言

在研究学习hudi flink源码时发现实际上写Hudi的主要逻辑是在Hudi自定义的StreamOperator和SinkFunction中实现，它们是通过DataStream的transform和addSink调用实现，继续研究发现和Flink的Transformation和StreamOperator有关。那么就需要了解StreamOperator的调用执行逻辑，最后发现这需要了解Flink Task的的运行逻辑，知道Flink的Task或者Function是如何运行的。而这里的逻辑是比较复杂的，大概包含StreamGraph、JobGraph、ExecutionGraph、Physical Graph(虚拟结构)的生成或者构建，还有JobManager和TaskManager的启动，而JobManager又包含ResourceManager、Dispatcher和JobMaster, 这里涉及Java8异步编程如CompletableFuture和基于Akka的RPC通信，最后才是Task的的部署和启动，StreamOperator相关方法的调用最终是通过启动Task.run方法在StreamTask中实现的。

我现在只需要了解主要的调用逻辑，暂时没有精力研究具体的每个步骤的详细源码，正好查阅相关资料时发现了几篇不错的文章，所以转载一下，先从StreamGraph开始。

注意：本篇文章对应的Flink版本比较老了（1.7或1.8），但主要的逻辑一样，可以参考文章和新版Flink源码进行学习，以下为原文

在编写 Flink 的程序的时候，核心的要点是构造出数据处理的拓扑结构，即任务执行逻辑的 DAG。我们先来看一下 Flink 任务的拓扑在逻辑上是怎么保存的。

StreamExecutionEnvironment

StreamExecutionEnvironment 是 Flink 在流模式下任务执行的上下文，也是我们编写 Flink 程序的入口。根据具体的执行环境不同，StreamExecutionEnvironment 有不同的具体实现类，如 LocalStreamEnvironment, RemoteStreamEnvironment 等。StreamExecutionEnvironment 也提供了用来配置默认并行度、Checkpointing 等机制的方法，这些配置主要都保存在 ExecutionConfig 和 CheckpointConfig 中。我们现在先只关注拓扑结构的产生。

more >>

展开全文 >>

记录几个Hudi Flink使用问题及解决方法

2023-08-20

前言

如题，记录几个Hudi Flink使用问题，学习和使用Hudi Flink有一段时间，虽然目前用的还不够深入，但是目前也遇到了几个问题，现在将遇到的这几个问题以及解决方式记录一下

版本

Flink 1.15.4
Hudi 0.13.0

流写

流写Hudi,必须要开启Checkpoint，这个我在之前的文章:Flink SQL Checkpoint 学习总结提到过。

如果不设置Checkpoint，不会生成commit，感觉像是卡住一样，具体表现为只生成.commit.requested和.inflight,然后不写文件、不生成.commit也不报错，对于新手来说很费劲，很难找到解决方法。

more >>

展开全文 >>

Hudi Flink SQL源码调试学习（一）

2023-07-31

前言

本着学习hudi-flink源码的目的，利用之前总结的文章Hudi Flink SQL代码示例及本地调试中的代码进行调试,记录调试学习过程中主要的步骤及对应源码片段。

版本

Flink 1.15.4
Hudi 0.13.0

目标

在文章Hudi Flink SQL代码示例及本地调试中提到：我们发现Table API的入口和DataStream API的入口差不多，DataStream API的入口是在HoodiePipeline的sink和source方法里，而这两个方法也是分别调用了HoodieTableFactory的createDynamicTableSink和createDynamicTableSource。那么Table API的代码怎么一步一步走到createDynamicTableSink和createDynamicTableSource的呢？返回HoodieTableSink之后又是怎么写数据的？因为我发现Hudi写数据的主要逻辑入口好像是在HoodieTableSink.getSinkRuntimeProvider的方法体里，这些问题之前都没有搞清楚，所以这次的目标就是要搞清楚：1、Table API 的入口到createDynamicTableSink返回HoodieTableSink的主要代码步骤； 2、在哪里调用HoodieTableSink.getSinkRuntimeProvider的方法体进行后面的写Hudi逻辑的

more >>

展开全文 >>