ILPD数据分析 pig数据分析

转载

mob64ca13f7ecc9 2023-12-01 11:15:14

文章标签 ILPD数据分析 java python 大数据 Pig 文章分类 数据分析人工智能

Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。

Pig特点:

1、专注于大量数据分析(ad-hoc analysis,ad-hoc代表:a solution that has been custom designed for a specific problem).

2、运行在集群的计算架构上，Yahoo Pig提供了多层抽象，简化并行计算让普通用户使用；这些抽象完成自动把用户请求queries翻译成有效的并行评估计划，然后在物理集群上执行这些计划；

3、提供类似SQL的操作语法；

4、开放源代码；

关于Pig与Hive：

对于开发人员，直接使用Java APIS可能是乏味或容易出错的，同时也限制了Java程序员在Hadoop上编程的运用灵活性。于是Hadoop提供了2个解决方案，使得Hadoop编程变得更加容易。

Pig是一种编程语言，它简化了Hadoop常见的工作任务，Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如日志文件)，同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换.

superimposes structure on data in HDFS)，并允许使用类似于SQL语法进行数据查询，与Pig一样，Hive的核心功能是可扩展的.

Pig和Hive总是令人困惑的.Hive更适合于数据仓库的任务，Hive主要用于静态的结构以及需要经常分析的工作。Hive与SQL相识促使其成为Hadoop与其他BI工具结合的理想交集。Pig富裕开发人员在大数据集领域更多的灵活性，并允许开发简洁的脚本用于转换数据流以便嵌入到较大的应用程序。Pig相比Hive相对轻量，它主要的优势是相比于直接使用Hadoop Java Apis可大幅消减代码量。正因为如此，Pig仍然是吸引大量的软件开发人员。

Name：Xr

Date：2014-3-30 20:47

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。