Hive内部表在HDFS中的目录结构

By | 2018年12月31日

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/haibo_hn/article/details/69946372

       在使用Sqoop导入表到Hive时,偶然发现有些表没有在Hive配置的/user/hive/warehouse目录下创建目录结构,而是在/user/root目录下创建。具体原因尚未查明,谨慎怀疑是那些导入出错的表导致,需要去甲方时再具体查看。在分析这个问题时,了解了Hive内部表在HDFS中的目录结构,总结如下。

1、默认情况        

       Hive内部表都属于缺省库default,在HDFS的目录为/user/hive/warehouse/(以下默认Hive的HDFS根目录为/user/hive)下。下图中abc,bonus,department,dept,emp为缺省库default下的几张表,目录名与表名一致。

[root@data1 ~]# hdfs dfs -ls /user/hive/warehouse/
Found 7 items
drwxrwxrwt   - root hive          0 2017-04-07 14:24 /user/hive/warehouse/a.db
drwxrwxrwt   - root hive          0 2017-03-27 14:13 /user/hive/warehouse/abc
drwxrwxrwt   - root hive          0 2017-04-07 14:22 /user/hive/warehouse/b.db
drwxrwxrwt   - root hive          0 2017-04-03 16:30 /user/hive/warehouse/bonus
drwxrwxrwt   - root hive          0 2017-03-24 13:18 /user/hive/warehouse/department
drwxrwxrwt   - hive hive          0 2017-04-04 23:12 /user/hive/warehouse/dept
drwxrwxrwt   - root hive          0 2017-04-03 16:50 /user/hive/warehouse/emp

2、指定库

        如果创建了数据库,并指定表为该库下的表,Hive会在/user/hive/warehouse/下创建一个以库名命名的目录(如上图的a.db,b.db分别代表数据库a,b),该库的表目录在库目录下。

[root@data1 ~]# hdfs dfs -ls /user/hive/warehouse/a.db
Found 2 items
drwxrwxrwt   - hive hive          0 2017-04-07 13:55 /user/hive/warehouse/a.db/dept
drwxrwxrwt   - root hive          0 2017-04-07 14:25 /user/hive/warehouse/a.db/dept1

3、指定分区

      如果为表设定了分区,则会在表目录下增加分区目录,目录名以“分区键名=分区值”的形式命名。如下图,表dept1中,设置了v1和v2两个名为a的分区。

[root@data1 ~]# hdfs dfs -ls /user/hive/warehouse/a.db/dept1
Found 2 items
drwxrwxrwt   - root hive          0 2017-04-07 14:24 /user/hive/warehouse/a.db/dept1/a=v1
drwxrwxrwt   - root hive          0 2017-04-07 14:25 /user/hive/warehouse/a.db/dept1/a=v2

发表评论