Hadoop数据分析系统论文基于hadoop数据分析

转载

温柔一刀 2024-06-25 17:12:22

文章标签 Hadoop数据分析系统论文 hadoop 数据分析数据仓库 spreadsheet 文章分类 Hadoop 大数据

作者：中国大数据

咨询师Wayne Eckerson说,Hadoop提供了一个平台，为单独数据分析和商业用户建立起的spreadmart（报表集市）提供更为方便的控制，同时还让他们有地方进行自助服务分析。

Spreadmart是spreadsheet data mart的简称，在商务智能领域，指多个个人和团队创建的各不相同的电子数据表格。因为数据不一致，所以给业务带来很大的麻烦。

几十年来，所有数据分析人员都使用自助服务分析工具来访问和操纵数据，确定趋势和反常现象，展示商务智能的洞察力等。虽然在这些年,工具的类型多有变化，但结果几乎都是一样的：spreadmart或数据影子系统的建立，依托于独特的规则，度量标准和定义。

大多数大型企业都有数以万计的spreadmart，每个都是为了在某一时刻应对重大的或局部性的问题而存在。虽然对于个体商业单元十分有价值，但 spreadmart快把CEO和CFO逼疯了。他们提出一个简单的问题，比如，“我们有多少客户？”，他们从spreadmart得到相互矛盾的答案，因为数据分析师和业务部门负责人援引的数据不一致。spreadmart现象已经使数千IT经理和企业高管制定了数据仓库规则,以此恢复数据的一致性和企业秩序。

这并没有阻止人们将数据存在着各种spreadmart工具中，从Microsoft Excel和Access，到自服务的BI软件等，在高端层面，使用SAS和SPSS软件进行统计分析和数据挖掘。但是有一项新技术，可以帮助企业改善 spreadmart的副作用：Hadoop集群。

这个开源软件是免费的，运行它所需的硬件也十分便宜，分析师不必了解SQL或数据建模技术就可以使用它。他们可以转储数据到Hadoop，然后使用高级语言，如Hive或Pig，或用Hadoop上兼容的BI和数据集成工具来访问，处理和分析数据。虽然有许多理由来实现Hadoop，但其中一个主要的理由是在无需IT干预的情况下,培养自我服务的数据分析，Hadoop正迅速成为成熟分析师和部门负责人的首选spreadmart平台。

Hadoop中实现免管理

到现在为止，已经出现了以最小通信在 Hadoop的环境里实现数据管理的方法。数据质量，数据一致性，适当规模和元数据管理这些术语还没有进入Hadoop的词典。因为Hadoop还是新鲜的事物，大部分公司仍在评估其对生产设施的支持能力。这也因为它的主要用户，业务分析人员，从来没有过分关注过企业数据治理和一致性，他们不需要高质量的数据就可做出评估和分析趋势。

所以，如果Hadoop是一个对所有自助服务免费的系统，分析人员和业务用户就可以在不需要费力管理的情况下实现转储和访问数据，是什么保证被热炒的 Hadoop数据池不会变成一圈涟漪，换句话说，Hadoop将来会进一步使spreadmart数量激增或有助于spreadmart的巩固么？

问题的答案是：两者都会。

公司的确可以使用Hadoop作为他们的所有数据的低成本存储库，也就是说，数据池。因此，在Hadoop系统为企业中的每一个分析师和业务单位提供了一站式服务,而不是在多个应用程序和系统中搜寻数据，分析人员可以通过挖掘数据池得到他们所需要的一切。这使得创建spreadmart变得更容易。

但是，这并不是采用在各种PC和文件服务器增加大量免控spreadmart的方式，而是由Hadoop提供了一种在单独位置加强数据分析能力的可能性：一个巨大的分析沙箱，提供了更大规模的经济以及可观的成本节约。它使IT和业务经理可以实实在在的看到分析人员在做什么。一种考量spreadmart的方式就是把spreadmart视为业务需求的实例化。隐藏的spreadmart使 IT管理人员很难分辨出对业务十分重要的方面有哪些，从数据仓库中找出满足企业报告要求的数据也会十分困难。通过将数据分析集中在数据湖中，Hadoop使得上述这些问题对IT部门以及商业伙伴来说变得十分容易，此外还主动满足了他们的需求。

数据分析新星

然而，Hadoop不仅仅是保持spreadmart集合的容器而已。他是一个可扩展的，灵活的数据处理平台，能够满足大多数企业的数据分析需求。这就像数据处理中瑞士军刀：是几乎可以做任何事情的通用工具，虽然不是最优的（至少在目前还不是）。

Hadoop可存储企业所有的数据，而不仅仅只是一个子集而已，就像数据仓库一样。而伴随着YARN 资源管理，，去年秋季推出的Hadoop 2的一部分，其已经可以支持各种数据和分析处理应用，从实时的SQL查询系统，图形到内存计算和流式分析引擎等。虽然Hadoop的2需要时间来成熟，但未来十分明确：企业可以将其数据存储在Hadoop集群并在那里进行处理。

这是具有革命性的。精明的IT和数据仓库管理者会很快意识到这将带来的影响。随着Hadoop 2系统的出现，其未来的分析架构将围绕Hadoop，而不是以前的关系型数据库。进一步讲，现有的分析系统将成为专门的数据库，并最终消失，因为 Hadoop逐渐成熟后会将它们的功能合并。

至少，这就是愿景。在大部分企业改变其当前的分析生态系统,使其融入到Hadoop2数据池之前,还需要大量的开发和实验工作。现有的分析系统还有很长的生命期：即使它们的价值已经完全贬值，但嵌入式性质和企业的惯性使得企业很难抛弃他们。Hadoop也可能永远不会实现它的承诺，或另外一种技术在将来会取代它的分析地位。

但在Hadoop的世界，这样的事在时刻发生着。如今，Hadoop正迅速成为事实上的企业数据存储库，并优先于spreadmart平台（或分析沙箱）。不久，它可能是成为用于构建分析应用程序和大多数分析生态系统的主要平台。