前言
我碰到的问题是这样的,我需要读取压缩文件里的数据存到hive表里,压缩文件解压之后是一个txt,这个txt里前几行的数据是垃圾数据,而这个txt文件太大,txt是直接打不开的,所以不能手动打开删除前几行数据,而这个文件是业务人员从别人那拿到的所以也不能改,本文就是讲如何解决这个问题。
1、数据
首先造几条数据,以理解我的需求
data.txt1
2
3
4
5
6
7
8
id name addr time
------------ ------------------- --------------- --------------------
1 zhangsan shanghai 2018-05-25
2 zhangsan shanghai 2018-05-25
3 zhangsan shanghai 2018-05-25
4 zhangsan shanghai 2018-05-25
5 zhangsan shanghai 2018-05-25
其中前三行是我不想要的数据,第一行为空,第二行为字段名,第三行应该是为了美观单独加了一行。
more >>