sqoop是在hive里面执行还是在其他地方 pig hive sqoop的区别

转载

jordana 2024-03-10 23:20:52

文章标签 hive pig 大数据 Hive Pig 文章分类 Hive 大数据

翻译自：http://www.aptibook.com/Articles/Pig-and-hive-advantages-disadvantages-features

这篇文章讨论了pig和hive的特性。

开发者通常处于选择满足业务需求的技术体系。在hadoop体系中，pig和hive很相似，并能给出几乎相同的结果，但是那种技术更适合特殊的业务场景了？这里列出了pig和hive的一些对比。

PIG and Hive:

流类型：

Pig是过程式数据流语言。过程式语言通常按照一步一步的执行方式去编写，你能够控制和优化每一步。

Hive更像sql，因此，它是声明式语言，你要指定需要做什么而不是怎么做。Hive依靠自己的优化器，因此hive中优化是比较难的。

易用性：

Pig拥有新而不同的语法，需要额外的时间去学习。

Hive更像sql，开发者会更兴奋的去使用hive.

一般场景：

推荐程序开发者使用Pig。主要原因是它计算高效，当你的查询有大量的join和filter时，pig更合适。

Hive更多的用于分析，它遵循Hadoop和DatawareHouse一些规则。一般更倾向使用Hive产生报表。如果你的查询join和filters比较少可以继续使用Hive，相反，如果查询拥有很多join，Hive的性能也许会降低。

数据类型：

Pig能高效处理结构化和非结构化数据。

Hive能高效的处理结构化数据。

中间层：

Pig使用变量表示数据，当要存储中间结果，可以很容易的用变量存起来并在以后引用。

Hive使用表表示数据，存储中间结果比较困难，需要创建一个表，并从其他的表插入进去。因此，呈现一个复杂的查询时，可能需要几百行的代码。

调试方式：

Pig可以使用本地模式调试。

Hive使用本来模式调试比较复杂并且很费时。

扩展性：

Pig中UDF很容易。

Hive中UDF相对麻烦。

维护性：

Pig比Hive差一点。

Hive比较简单。

持久性：

Pig中可能不会保留变量的值，每一次你都需要重新执行pig代码重新获取变量值。

Hive中即使退出当前会话外部表依然存在，因为外部表依然指向HDFS文件。

开发时间：

pig开发需要更多的时间，更多的依赖对pig的熟悉度。

SQL语句，开发时间很少。

兼容性：

RDBMS与Pig兼容有点复杂，因为pig的语法完全不同。

大部分在RDBMS中的sql可以在Hive中执行，只有少数需要修改。

数据量：

Pig处理大数据很高效。

Hive有时会内存泄露和不靠谱的性能，然而，有一些参数可以进行调整和定位问题。

巨头支持：

Pig：Yahoo，Twitter, LinkedIn

Hive: FaceBook

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：android滑动布局禁止滑动 android 滑动固定顶部

下一篇：deveco no samples found解决 deveco tool

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

sqoop是在hive里面执行还是在其他地方 pig hive sqoop的区别

sqoop是在hive里面执行还是在其他地方 pig hive sqoop的区别

51CTO博客