前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住给大家分享一下。点击跳转到网站:https://www.captainai.net/dongkelun
前言
总结一下Hive的内部表和外部表以及两者的区别。
1、建表语句
1.1 内部表
平时创建的普通表为内部表1
2
3
4
5
6create table `test_internal` (
id string comment 'ID',
name string comment '名字'
)
comment '测试内部表'
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;
外部表
带external关键字的为外部表1
2
3
4
5
6create external table `test_external` (
id string comment 'ID',
name string comment '名字'
)
comment '测试外部表'
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;
仅从建表语句上看,内部表和外部表的区别为是否带有external关键字。
2、location
网上很多博客写的外部表建表语句中都带有location关键字,我这里单独分开来写。
- 其实不管是内部表还是外部表都可以加location关键字指定hive表的存储路径,当然也可以不加,从这点看是没有区别的。
- 如果不加location那么不管是内部表还是外部表都会在默认的hive配置的hdfs路径下下新建一个和表名相同的文件夹。
- 如果加了location指定另外的文件夹,那么在查询时,该文件夹下对应的数据会加载到hive表里。
示例:
2.1 数据
data.txt1
2002,李四
003,王五
1 | hadoop fs -mkdir -p /tmp/dkl/internal_location |
2.2 建表
2.2.1 内部表
1 | create table test_internal_location ( |
2.2.2 外部表
1 | create external table test_external_location ( |
这样查询的时候就可以把data.txt里的数据查出来了,这时再往对应的HDFS路径下put数据,Hive表也会对应增加。
说明:hdfs 文件夹及对应下的数据和建表语句没有先后顺序,建表在前和在后都可以把数据加载出来,如果先建表的话,对应的文件夹如果不存在,则会自动建立文件夹。
3、删除表
内部表和外部表的区别主要体现在删除表,将上面建立的四个表都删掉。1
2
3
4drop table test_internal;
drop table test_external;
drop table test_internal_location;
drop table test_external_location;
看一下对应的hdfs路径有啥变化
hadoop命令1
2hadoop fs -ls /apps/hive/warehouse/dkl.db
hadoop fs -ls /tmp/dkl
发现外部表test_external文件夹和external_location文件夹都存在,而内部表的两个文件夹都没了,这也就是内部表和外部表的区别:
内部表删除表时,对应的hdfs的路径下的文件会删掉;外部表删除表时,对应的HDFS的路径下的文件则不会删掉,无论是建表是指定location还是不指定location
4、总结
- 建表时带有external关键字为外部表,否则为内部表
- 内部表和外部表建表时都可以自己指定location
- 删除表时,外部表不会删除对应的数据,只会删除元数据信息,内部表则会删除
- 其他用法是一样的