git hadoop 开源项目 3大开源hadoop套件

转载

mob6454cc7b19b2 2023-07-11 21:23:53

文章标签 大数据 hadoop java 编程语言 文章分类 代码人生

hadoop开源项目

Hadoop是一个具有有趣名字的开源软件框架，它通过允许组织存储，管理和分析大量数据以获得可行的见解和竞争优势，已成为组织的游戏规则改变者。

但这并非总是如此。

最初，Hadoop实施需要熟练的工程师和数据科学家团队，这使得Hadoop对于许多组织而言过于昂贵且繁琐。现在，由于有许多开源项目，使用Hadoop进行大数据分析已变得更加负担得起且成为主流。

下面就来看看在三种开源项目-如何配置单元 ，星火，和普雷斯托 -具备改变了的Hadoop生态系统。

蜂巢

Hadoop的一个早期问题是，虽然它非常适合存储和管理海量数据，但要分析数据以获取见识却很困难。只有训练有素的数据科学家才能编写复杂的“ Java Map-Reduce”作业，才能释放Hadoop的分析功能。为了解决这个问题，Facebook的两位数据科学家Ashish Suchoo和Joydeep Sen Sarma（后来又找到了名为Qubole的基于云的Hadoop大数据分析服务）于2008年创建了Apache Hive。

利用结构化查询语言（SQL）的易用性，该语言需要较少的培训并且被数据工程师广泛使用，Hive使用一种称为HiveQL的语言将类似SQL的查询自动转换为在Hadoop上执行的MapReduce作业。由于SQL是学校教授的首选数据语言，并且在行业中使用，因此将SQL置于Hadoop之上的Hive通过使其强大的分析功能更易于为个人和组织（不仅是开发人员）使用而转变了Hadoop。 Hive最适合用于汇总，查询和分析时间不是很重要的大型结构化数据集。

火花

虽然Hive on MapReduce在汇总，查询和分析大量结构化数据方面非常有效，但是Hadoop在MapReduce上启用的计算速度却很慢而且很有限，这正是Spark的用处。2009年由加州大学伯克利分校的AMPLab开发，2010年开源，Apache Spark是功能强大的Hadoop数据处理引擎，旨在在创纪录的时间内处理批处理和流式工作负载。实际上，在Apache Hadoop 2.0上， Apache Spark在程序上的运行速度比MapReduce快100倍，磁盘上快10倍。

用户的优势在于，Spark不仅支持诸如SQL查询，流数据之类的操作以及诸如机器学习和图形算法之类的复杂分析，而且还允许将这些多种功能无缝地组合到单个工作流程中。此外，Spark与Hadoop的分布式文件系统（HDFS），HBase和任何Hadoop存储系统100％兼容，这意味着组织中的所有现有数据均可在Spark中立即使用。 Spark具有统一大数据分析的能力，从而降低了组织构建单独的处理系统来满足其各种计算需求的需求。

普雷斯托

。

如今，Presto可以作为开放源代码的分布式SQL查询解决方案使用，组织可以使用该查询解决方案对千兆字节至PB级的数据源运行交互式分析查询。 Presto具有扩展到Facebook之类的组织规模的能力，是一个功能强大的查询引擎，它已经改变了Hadoop生态系统，并且可能对组织和整个行业都具有变革性。

大数据每天都在增长。当组织寻求新的更好的方式来利用有价值的数据时，他们将不再依赖Hadoop和MapReduce进行批处理，而更多地依赖诸如Hive，Spark和Presto之类的开源工具来满足未来的大数据需求。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。