大数据时代之hadoop(六)：hadoop 生态圈（pig，hive，hbase，ZooKeeper，Sqoop）

转载

mob604756f1c0ca 2017-07-28 14:19:00

文章标签 hadoop hive 数据 mapreduce hdfs 文章分类 代码人生

hadoop是有apache基金会所开发的分布式系统基础架构，其主要提供了双方面的功能：分布式存储和分布式计算。当中分布式存储是分布式计算的基础，在hadoop的实现里面，提供了分布式存储的接口，并自己实现了一个分布式存储的实现即HDFS,但并不代表hadoop仅仅支持HDFS这一中实现，其同一时候支持别的存储系统，并在别的存储系统上运行分布式计算程序（mapreduce）。

大数据时代之hadoop(六)：hadoop 生态圈（pig，hive，hbase，ZooKeeper，Sqoop）_hdfs

从开发角度来说。hadoop给开发者预留了两个接口。即map接口和reduce接口。而整个作业的处理流程是固定的，即用户所能做的就是依据详细的项目需求来找到合适的方法实现自己的map函数和reduce函数，从而达到目的。

从总体上来学习hadoop毕竟还是有点难度的。但已经有一些开源的工具已经替我们做了非常多，如pig，hive，hbase等，本节的重点在于了解这些构建在hadoop基础之上的一些开源工具。也可称为hadoop的生态圈吧。

1、pig

大数据时代之hadoop(六)：hadoop 生态圈（pig，hive，hbase，ZooKeeper，Sqoop）_数据_02

pigs eat anything！

pig 是Yahoo 为了让研究员和project师可以更简单的挖掘大规模数据集而发明的。

pig为大型数据集的处理提供了更高层次的抽象。MapReduce使程序猿可以自定定义连续运行的map和reduce函数。

可是。数据处理通常须要多个mapreduce过程才干实现。所以将数据处理要求改写成mapreduce模式非常复杂的。

与mapreduce相比，pig提供了更丰富的数据结构，还提供了一套强大的数据变换操作。

Pig包含两部分：

用于描写叙述数据流的语言，称为pig latin。

用于运行pig latin程序的运行环境。用两种模式：单JVM中的本地环境和hadoop集群上的分布式运行环境。

一个pig latin程序有一系列的“操作（operation）”和“变换（transformation）”组成。

每一个操作或变换对输入进行处理，然后产生输出结果。

这些操作总体上描写叙述了一个数据流。Pig运行环境把数据流翻译成可运行的内部表示，并运行它。

演示样例：

--载入数据，并依照as 后指定的格式载入
records = load ‘/home/user/input/temperature1.txt’ as (year: chararray,temperature: int);
--打印records 对象
dump records;
describe records;
--过滤掉temperature!=999的数据
valid_records = filter records by temperature!=999;
--按year分组
grouped_records = group valid_records by year;
dump grouped_records;
describe grouped_records;
--取最大数
max_temperature = foreach grouped_records generate group,MAX(valid_records.temperature);
--备注：valid_records是字段名，在上一语句的describe命令结果中可以查看到group_records 的详细结构。
dump max_temperature;

与传统数据库比較:

pig latin 是一种数据流编程语言，而SQL是一种描写叙述性编程语言。

pig 不支持事物和索引，不支持低延时查询。

2、hive

大数据时代之hadoop(六)：hadoop 生态圈（pig，hive，hbase，ZooKeeper，Sqoop）_数据_03

Hive是一个构建在hadoop上的数据仓库框架，它的设计目的是让精通SQL技能分析师可以在facebook存放在hdfs的大规模数据集进行查询。

HIVE会把查询转换为一系列在hadoop集群上运行的mapreduce作业。

hive把数据组织为表，通过这样的方式为存储在HDFS的数据赋予结构。元数据如表模式存储在名为metastore的数据库中。

演示样例：

(1)创建表

CREATE TABLE csdn (username STRING,passw STRING,mailaddr STRING) row format delimited fields terminated by '#';

(2)load本地文件进csdn表：

LOAD DATA LOCAL INPATH '/home/development/csdnfile' OVERWRITE INTO TABLE csdn;

(3) 运行查询并将结果输出至本地文件夹：

INSERT OVERWRITE LOCAL DIRECTORY '/home/development/csdntop' SELECT passw,count(*) as passwdnum FROM csdn group by passw order by passwdnum desc;

与传统数据库比較:

hive介于pig和传统RDBMS之间。hive的查询语言HiveQL，是基于SQL的。

hive对数据的验证并不在载入数据时进行，而在查询时进行，称为“读时模式”，而传统的数据库是“写实模式”。

hive也不支持事物和索引，不支持低延时查询。

3、hbase

大数据时代之hadoop(六)：hadoop 生态圈（pig，hive，hbase，ZooKeeper，Sqoop）_hive_04