hive导入数据的4种方法及示例代码-

Hive 的几种常见的数据导入方式这里介绍四种：（1）、从本地文件系统中导入数据到 Hive 表；（2）、从 HDFS 上导入数据到 Hive 表；（3）、从别的表中查询出相应的数据并导入到 Hive 表中；（4）、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。一、从本地文件系统中导入数据到 Hive 表先在 Hive 里面创建好表，如下：1.hive create table wyp2. (id int, name string,3. age int, tel string)4. ROW FORMAT DELIMITED5. FIELDS TERMINATED BY t6. STORED AS TEXTFILE;7.OK8.Time taken: 2.832 seconds复制代码这个表很简单，只有四个字段，具体含义我就不解释了。本地文件系统里面有个/home/wyp/wyp.txt 文件，内容如下：1.wypmaster $ cat wyp.txt2.1 wyp 25 131888888888883.2 test 30 138888888888884.3 zs 34 899314121复制代码wyp.txt 文件中的数据列之间是使用t 分割的，可以通过下面的语句将这个文件里面的数据导入到 wyp 表里面，操作如下：1.hive load data local inpath wyp.txt into table wyp;2.Copying data from file:/home/wyp/wyp.txt3.Copying file: file:/home/wyp/wyp.txt4.Loading data to table default.wyp5.Table default.wyp stats:6.num_partitions: 0, num_files: 1, num_rows: 0, total_size: 677.OK8.Time taken: 5.967 seconds复制代码这样就将 wyp.txt 里面的内容导入到 wyp 表里面去了，可以到 wyp 表的数据目录下查看，如下命令：1.hive dfs -ls /user/hive/warehouse/wyp ;2.Found 1 items3.-rw-r-r-3 wyp supergroup 67 2014-02-19 18:23 /hive/warehouse/wyp/wyp.txt复制代码需要注意的是：和我们熟悉的关系型数据库不一样，Hive 现在还不支持在 insert 语句里面直接给出一组记录的文字形式，也就是说，Hive 并不支持 INSERT INTO . VALUES 形式的语句。二、HDFS 上导入数据到 Hive 表从本地文件系统中将数据导入到 Hive 表的过程中，其实是先将数据临时复制到 HDFS的一个目录下（典型的情况是复制到上传用户的 HDFS home 目录下, 比如/home/wyp/），然后再将数据从那个临时目录下移动（注意，这里说的是移动，不是复制！）到对应的Hive 表的数据目录里面。既然如此，那么 Hive 肯定支持将数据直接从 HDFS 上的一个目录移动到相应 Hive 表的数据目录下，假设有下面这个文件/home/wyp/add.txt，具体的操作如下：1.wypmaster /home/q/hadoop-2.2.0$ bin/hadoop fs -cat /home/wyp/add.txt2.5 wyp1 23 1312121212123.6 wyp2 24 1345353535354.7 wyp3 25 1324535353535.8 wyp4 26 154243434355复制代码上面是需要插入数据的内容，这个文件是存放在 HDFS 上/home/wyp 目录（和一中提到的不同，一中提到的文件是存放在本地文件系统上）里面，我们可以通过下面的命令将这个文件里面的内容导入到 Hive 表中，具体操作如下：1.hive load data inpath /home/wyp/add.txt into table wyp;2.Loading data to table default.wyp3.Table default.wyp stats:4.num_partitions: 0, num_files: 2, num_rows: 0, total_size: 2155.OK6.Time taken: 0.47 seconds7.8.hive select * from wyp;9.OK10.5 wyp1 23 13121212121211.6 wyp2 24 13453535353512.7 wyp3 25 13245353535313.8 wyp4 26 15424343435514.1 wyp 25 1318888888888815.2 test 30 1388888888888816.3 zs 34 89931412117.Time taken: 0.096 seconds, Fetched: 7 row(s)复制代码从上面的执行结果我们可以看到，数据的确导入到 wyp 表中了！请注意 load data inpath /home/wyp/add.txt into table wyp;里面是没有 local 这个单词的，这个是和一中的区别。三、从别的表中查询出相应的数据并导入到 Hive 表中假设 Hive 中有 test 表，其建表语句如下所示：1.hive create table test(2. id int, name string3. ,tel string)4. partitioned by5. (age int)6. ROW FORMAT DELIMITED7. FIELDS TERMINATED BY t8. STORED AS TEXTFILE;9.OK10.Time taken: 0.261 seconds复制代码大体和 wyp 表的建表语句类似，只不过 test 表里面用 age 作为了分区字段。对于分区，这里在做解释一下：分区：在 Hive 中，表的每一个分区对应表下的相应目录，所有分区的数据都是存储在对应的目录中。比如 wyp 表有 dt 和 city 两个分区，则对应 dt=20131218,city=BJ 对应表的目录为/user/hive/warehouse/dt=20131218/city=BJ，所有属于这个分区的数据都存放在这个目录中。下面语句就是将 wyp 表中的查询结果并插入到 test 表中：1.hive insert into table test2. partition (age=25)3. select id, name, tel4. from wyp;5.#6. 这里输出了一堆 Mapreduce 任务信息，这里省略7.#8.Total MapReduce CPU Time Spent: 1 seconds 310 msec9.OK10.Time taken: 19.125 seconds11.12.hive select * from test;13.OK14.5 wyp1 131212121212 2515.6 wyp2 134535353535 2516.7 wyp3 132453535353 2517.8 wyp4 154243434355 2518.1 wyp 13188888888888 2519.2 test 13888888888888 2520.3 zs 899314121 2521.Time taken: 0.126 seconds, Fetched: 7 row(s)复制代码这里做一下说明：我们知道我们传统数据块的形式 insert into table values（字段 1，字段 2），这种形式hive 是不支持的。通过上面的输出，我们可以看到从 wyp 表中查询出来的东西已经成功插入到 test 表中去了！如果目标表（test）中不存在分区字段，可以去掉 partition (age=25)语句。当然，我们也可以在 select 语句里面通过使用分区值来动态指明分区：1.hive set hive.exec.dynamic.partition.mode=nonstrict;2.hive insert into table test3. partition (age)4. select id, name,5. tel, age6. from wyp;7.#8. 这里输出了一堆 Mapreduce 任务信息，这里省略9.#10.Total MapReduce CPU Time Spent: 1 seconds 510 msec11.OK12.Time taken: 17.712 seconds13.14.15.hive select * from test;16.OK17.5 wyp1 131212121212 2318.6 wyp2 134535353535 2419.7 wyp3 132453535353 2520.1 wyp 13188888888888 2521.8 wyp4 154243434355 2622.2 test 13888888888888 3023.3 zs 899314121 3424.Time taken: 0.399 seconds, Fetched: 7 row(s)复制代码这种方法叫做动态分区插入，但是 Hive 中默认是关闭的，所以在使用前需要先把hive.exec.dynamic.partition.mode 设置为 nonstrict。当然，Hive 也支持 insert overwrite方式来插入数据，从字面我们就可以看出，overwrite 是覆盖的意思，是的，执行完这条语句的时候，相应数据目录下的数据将会被覆盖！而 insert i