1、创建表的语句格式:
Create [EXTERNAL] TABLE [IF NOT EXISTS] table_name
[(col_name data_type [COMMENT col_comment], ...)]
[COMMENT table_comment]
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
[CLUSTERED BY (col_name, col_name, ...)
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
[ROW FORMAT row_format] [STORED AS file_format]
[LOCATION hdfs_path]
2、稍微解释下
CREATE TABLE 创建一个指定名字的表。
如果相同名字的表已经存在,则抛出异常;
用户可以用 IF NOT EXIST 选项来忽略这个异常。
EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION),Hive 创建内部表时,会将数据移动到数据仓库指向的路径;
若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。
在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。
如果文件数据是纯文本,可以使用 STORED AS TEXTFILE。
如果数据需要压缩,使用 STORED AS SEQUENCE 。
有分区的表可以在创建的时候使用 PARTITIONED BY 语句。
一个表可以拥有一个或者多个分区,每一个分区单独存在一个目录下。
而且,表和分区都可以对某个列进行 CLUSTERED BY 操作,将若干个列放入一个桶(bucket)中。
也可以利用SORT BY 对数据进行排序。这样可以为特定应用提高性能。
3、创建普通的表:
create table test_table
(id int,name string,no int)
row format delimited fields terminated by ','
stored as textfile;
//指定了字段的分隔符为逗号,所以load数据的时候,load的文本也要为逗号,否则加载后为NULL。hive只支持单个字符的分隔符,hive默认的分隔符是\001
4、创建带有partition的表:
create table test_part
(id int,name string,no int)
partitioned by (dt string)
row format delimited fields terminated by '\t'
stored as textfile ;
用创建用\t作分隔符的表,PT为分区字段,
5、加载如下:
load data local inpath '/home/zhangxin/hive/test_hive.txt' overwrite into table test_part partition (dt='2012-03-05');
//local是本地文件,注意不是你电脑上的文件,是hadoop所在的本地文件
//如果是在hdfs里的文件,则不需要local。 overwrite into是覆盖表分区,仅仅是这个分区的数据内容,如果是追加,则不需要overwrite
创建external表:(外部表)create external table test_external (id int,name string,no int) row format delimited fields terminated by ',' location '/home/zhangxin/hive/test_hive.txt';
//用逗号分隔的表,且无分区, location后是外部表数据的存放路径
6创建与已知表相同结构的表 Like:
只复制表的结构,而不复制表的内容。create table test_like_table like test_bucket;