数据分析的历史

当今的分析要求给现有的数据基础架构带来了前所未有的压力。 跨运营和存储数据执行实时分析通常是成功的关键,但实施起来总是充满挑战。

考虑一家航空公司,它希望从其喷气发动机中收集并分析连续的数据流,以进行预测性维护并加快发布解决方案的时间。 每个引擎都有数百个传感器,用于监视温度,速度和振动等条件,并将这些信息连续发送到物联网(IoT)平台。 物联网平台提取,处理和分析数据后,将其存储在数据湖 (也称为运营数据存储)中,只有最新数据保留在运营数据库中。

[InfoWorld的要点: 什么是大数据分析? 您需要了解的所有内容 • 什么是数据挖掘? 分析如何发现见解 。 | 通过InfoWorld大数据和分析报告时事通讯深入了解分析和大数据。 ]

现在,每当实时数据中的异常读数触发特定引擎的警报时,航空公司就需要对实时运行数据和该引擎的存储历史数据进行实时分析。 但是,航空公司可能会发现不可能使用其当前的基础架构来完成实时分析。

如今,制定大数据计划的公司通常使用Hadoop将其操作数据的副本存储在数据湖中,数据科学家可以在其中访问数据以进行各种分析。 当用例需要对传入的运营数据以及存储在数据湖中的数据子集进行实时分析时,传统基础架构将成为绊脚石。 访问存储在数据湖中的数据存在固有的延迟,以及在组合的数据湖和操作数据中运行联合查询的挑战。

内存中计算解决方案通过提供实时性能,大规模可伸缩性以及与流行数据平台的内置集成,解决了跨数据湖和运营数据进行实时分析的挑战。 这些功能使混合事务/分析处理(HTAP)能够跨数据湖和操作数据集运行实时联合查询。

内存计算平台功能

内存计算平台支持对以下部分或全部操作进行数据的提取,处理和分析,以及实时性能和PB级可伸缩性:

  • 内存中的数据网格和内存中的数据库。 内存中的数据网格和内存中的数据库池化了可用内存并计算了服务器群集,从而允许在内存中处理数据,并消除了在处理之前等待从磁盘中检索数据的延迟。 内存数据网格部署在现有数据库之上,并使底层数据库保持同步,而内存数据库则将完整的数据集保留在内存中,并仅出于备份和恢复目的而定期将数据写入磁盘。 内存数据网格和内存数据库可以部署在内部,公共或私有云或混合环境中。
  • 流数据处理。 内存计算平台可以从诸如Apache Kafka之类的流行流平台中实时获取,处理和分析大量数据流。
  • 机器学习和深度学习。 结合了机器学习库的内存中计算平台允许使用操作数据对就位的机器学习模型进行实时培训。 与TensorFlow等深度学习平台进行本地集成的内存计算平台可以显着降低准备数据并将数据传输到这些深度学习培训平台的成本和复杂性。
  • 联合查询。 某些内存计算平台利用与流行的流数据平台(包括Apache Kafka和Apache Spark)的内置集成来启用跨数据湖和操作数据集的联合查询。 Apache Kafka用于构建实时数据管道和流应用程序,这些应用程序提供用于实时处理传入数据的数据。 Apache Spark是一个统一的分析引擎,可以执行大规模数据处理,包括跨基于Hadoop的数据湖和运营数据库的数据运行联合查询。
  • 混合事务/分析处理(HTAP)或混合操作/分析处理(HOAP)。 HTAP,HOAP或转换解决方案使公司可以维护一个数据集,在该数据集上可以执行同步的事务和分析处理,从而消除了将数据从专用事务数据库移动到数据库所需的昂贵且缓慢的提取,转换,加载(ETL)过程。独立的专用分析数据库。

从Apache Kafka到Apache Spark到实时洞察

与Kafka,Spark和Hadoop集成的内存计算平台使航空公司在我们的示例中可以针对其实时运行数据和特定引擎的历史数据运行实时分析。 Apache Kafka将实时流数据馈入内存计算平台。 内存计算平台将操作数据和热数据保存在内存中,并跨这些数据集运行实时查询。 Spark会从数据湖中检索历史数据,并从内存中计算平台中检索温暖的运营数据,从而通过跨数据孤岛运行查询来提供更深入的见解。 通过这种架构,航空公司可以立即洞悉异常读数的原因。

现代数据基础架构最抢手的优势包括预测性维护和更快的解决问题时间,这可以提高客户满意度,提高资产利用率和更高的ROI。 使用内存计算平台对运营数据和部分数据湖数据进行实时分析,可以使这些以及其他新的实时物联网服务成为现实。

Nikita Ivanov是GridGain Systems的联合创始人兼CTO,他领导了高级和分布式内存数据处理技术的开发。 他在软件应用程序开发,构建HPC和中间件平台方面拥有20多年的经验,并为Adaptec,Visa和BEA Systems等公司的工作做出了贡献。

-

新技术论坛提供了一个以前所未有的深度和广度探索和讨论新兴企业技术的场所。 选择是主观的,是基于我们选择的技术,我们认为这些技术对InfoWorld读者来说是重要的,也是他们最感兴趣的。 InfoWorld不接受发布的营销担保,并保留编辑所有贡献内容的权利。

翻译自: https://www.infoworld.com/article/3430787/how-to-perform-real-time-analytics-across-live-and-historical-data.html

数据分析的历史