前言
如题:记录一个 Hudi HBase 依赖冲突问题及解决方案
版本
- Hudi 0.13.0
- Spark 3.2.3
异常
1 | ERROR Javalin: Exception occurred while servicing http-request |
如题:记录一个 Hudi HBase 依赖冲突问题及解决方案
1 | ERROR Javalin: Exception occurred while servicing http-request |
之前很少用MOR表,现在来学习总结一下。首先总结一下 compaction 遇到的问题。
COW 和 MOR
记录Spark Client 配置,这里的 Spark Client 和 HDFS、YARN 不在一个节点,只是一个单节点的 Spark Client,需要能连接其他节点的大数据集群的 Hive 和 能提交到Yarn 。
大数据节点(已配置好Spark):
192.168.44.154
192.168.44.155
192.168.44.156
客户端:
192.168.44.157 (新装操作系统)
在进行TPC性能测试时用到两个集群管理命令:clush
和 pssh
,这俩命令都可以在多台服务器上并发执行相同命令,其中个人比较推荐 clush
,因为感觉 clush
比较好用,本文来总结一下 clush
和 pssh
的安装配置和使用。
clush
和 pssh
都是基于Python实现,由于不同的系统默认的Python版本不同,由于 Python3 和 Python2 可能由于支持度不同可能会遇到不一样的问题。 目前使用过程中两个命令对于默认安装 Python2 的系统几乎没有遇到任何问题,安装和使用都比较顺利。而对于默认安装Python3的系统安装和使用过程中可能会分别遇到不同的问题,所以本文对于Python2和Python3都进行了总结。 目前用到的系统中,Centos 7 默认安装 Python2,Centos8 和 openeuler22.03 默认安装 Python3 ,如果某些软件或者命令不支持Python3 可以选择离线编译安装 Python2,然后在基于 Python2 进行安装即可。
Clush是一个非常实用的集群管理命令。通过这个命令,用户可以批量管理多台服务器,使它们执行相同的命令,例如安装软件或监测运行状况等,从而达到管理多个节点的目的。
more >>tag:
缺失模块。
1、请确保node版本大于6.2
2、在博客根目录(注意不是yilia根目录)执行以下命令:
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置:
jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true