Flink 读写Kafka总结

2023-07-05

前言

总结Flink读写Kafka

Flink 版本

1.15.4

Table API

本文主要总结Table API的使用（SQL），官方文档：https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/docs/connectors/table/kafka/

kerberos认证相关配置

官方文档：

修改conf/flink-conf.yaml

security.kerberos.login.keytab: /etc/security/keytabs/hive.service.keytab
security.kerberos.login.principal: hive/indata-192-168-44-128.indata.com@INDATA.COM

java.security.auth.login.config: /usr/hdp/3.1.0.0-78/kafka/conf/kafka_jaas.conf
security.kerberos.login.contexts: Client,KafkaClient

more >>

展开全文 >>

Hudi Flink SQL代码示例及本地调试

2023-05-29

前言

之前在Flink Hudi DataStream API代码示例中总结了Hudi Flink DataStream API的代码及本地调试，并且在文中提到其实大家用Table API更多一些，但是我感觉Table API调试源码可能会比较难一点，因为可能会涉及到SQL解析，不清楚Table API的入口在哪里。
但是在我总结的上篇文章Flink用户自定义连接器（Table API Connectors）学习总结中知道了其实Flink Table API读写Hudi是通过自定义实现了一个Hudi的Table API Connectors（’connector’ = ‘hudi’）,相关类为HoodieTableFactory、HoodieTableSink和HoodieTableSource，入口为HoodieTableFactory。

more >>

展开全文 >>

Flink用户自定义连接器（Table API Connectors）学习总结

2023-05-24

前言

结合官网文档和自定义实现一个flink-http-connector，来学习总结Flink用户自定义连接器（Table API Connectors）。

背景

前段时间有个需求：需要Flink查询API接口，将返回的数据转为Flink Table，然后基于Table进行后面的计算。这个需求可以写Flink代码实现：使用HttpClient API请求接口返回数据，然后将返回的数据转为DataStream,最后再将DataStream转为Table。我想了一下是不是可以通过SQL的形式实现这种需求，于是在网上查了一下，还真有。Star比较多的项目：https://github.com/getindata/flink-http-connector.git,但是它要求Java 11，并且它的Http Source只支持Lookup Joins，限制太多，并不能满足我的需求。所以最终又尝试学习了自己写自定义的Table API Connectors，这样可以比较灵活的实现需求。

官网文档

官网文档地址：https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/docs/dev/table/sourcessinks/,官网文档详细介绍了自定义连接器的概念、扩展点并给出了一个完整的代码实例，实例实现了自定义socket连接器。本文摘录一部分官方文档，便于自己理解。

动态表是 Flink Table & SQL API的核心概念，用于统一有界和无界数据的处理。

动态表只是一个逻辑概念，因此 Flink 并不拥有数据。相应的，动态表的内容存储在外部系统（如数据库、键值存储、消息队列）或文件中。

动态 sources 和动态 sinks 可用于从外部系统读取数据和向外部系统写入数据。在文档中，sources 和 sinks 常在术语连接器下进行总结。

Flink 为 Kafka、Hive 和不同的文件系统提供了预定义的连接器。有关内置 table sources 和 sinks 的更多信息，请参阅连接器部分：https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/docs/connectors/table/overview/
more >>

展开全文 >>

Flink Hudi DataStream API代码示例

2023-05-22

前言

总结Flink通过DataStream API读写Hudi Demo示例，主要是自己备忘用。

最开始学习Flink时都是使用Flink SQL,所以对于Flink SQL读写Hudi比较熟悉。但是对于写代码实现并不熟悉，而有些需求是基于Flink代码实现的，所以需要学习总结一下。
仅为了实现用代码读写Hudi的需求，其实有两种方式，一种是在代码里通过Flink Table API，也就是代码中执行Flink SQL，这种方式其实和通过SQL实现差不多，另一种方式是通过DataStream API实现。（现实中包括网上教程使用最多的应该是Flink Table API）
本文主要是总结DataStream API方式
DataStream API方式有一种好处是方便IDEA本地调试Hudi源码，便于学习，当然Table API也是可以进行本地调试源码的，但是因为我对Flink SQL源码不熟悉，调试起来比较费劲。Table API调试源码的难点在于我不知道从Flink SQL的源码到Hudi源码的入口在哪，因为这里牵扯到SQL解析的源码，可能比较麻烦（没有研究过）。比如我之前总结的Hudi Spark SQL源码相关的文章：Hudi Spark SQL源码学习总结-Create Table

more >>

展开全文 >>

Flink MySQL CDC 使用总结

2023-04-03

前言

学习总结Flink MySQL CDC，主要目的是同步MySQL数据至其他数据源如Hudi、MySQL等，本文主要以 MySQL2Hudi、MySQL2MySQL两个场景进行示例验证。

版本

Flink	版本
Flink	1.14.3、1.15.4、1.16.1
Hudi	0.13.0
MYSQL CDC	2.3.0

安装

将下面的Jar包拷贝到flink/lib下面（以flink1.15.4为例）

MySQL CDC（CDC读取MySQL）: flink-sql-connector-mysql-cdc-2.3.0.jar，下载地址： https://repo1.maven.org/maven2/com/ververica/flink-sql-connector-mysql-cdc/2.3.0/flink-sql-connector-mysql-cdc-2.3.0.jar
Hudi (Sink Hudi): hudi-flink1.15-bundle-0.13.0.jar，自己对应版本的打包
Jdbc (Sink MySQL): flink-connector-jdbc-1.15.4.jar, 下载地址：https://repo1.maven.org/maven2/org/apache/flink/flink-connector-jdbc/1.15.4/flink-connector-jdbc-1.15.4.jar

Flink CDC,只是对于Source表，比如MySQL CDC，就是抽取MySQL Source表，CDC 官方文档：https://ververica.github.io/flink-cdc-connectors/master/content/connectors/mysql-cdc.html#,可以查看官方文档了解目前Flink CDC支持哪些数据源，每一种数据源都需要下载对应的Jar包

more >>

展开全文 >>