前言
记录利用Spark 创建Hive表的几种压缩格式。
背景
本人在测试hive表的parquet和orc文件对应的几种压缩算法性能对比。利用Spark thrift server通过sql语句创建表,对比 parquet对应的gzip、snappy,orc对应的 snappy、zlib的压缩率以及查询性能。
parquet
建表语句:在最后加1
STORED AS PARQUET
parquet默认的压缩为snappy,如果想改成其他压缩格式如gzip,可在建表语句最后加
1 | STORED AS PARQUET TBLPROPERTIES('parquet.compression'='GZIP') |