介绍

本文作为“存储基础知识”系列文章之一,将介绍大数据的概念和组成部分。

 

更多信息

 

大数据是一个新提出的且在不断演化的概念,是指数据量超过了常规软件工具在可接受的时间内的抓取、存储、管理和处理能力。它即包括结构化数据,也包括非结构化数据。其数据的来源多种多样,可以来自商务应用处理、网页、视频、图像和社交媒体等。这些数据集通常需要实时地抓取和更新,以用于分析、预测性建模和决策等用途。

 

从大数据中吸取价值存在很大的机遇。大数据的生态系统(如下图所示)由以下元素组成:

 

1、从多个位置收集数据,并从收集的数据中生成数据(元数据)的设备。

2、数据收集器,收集来自设备和用户的数据。

3、数据聚合工具,从收集的数据中吸取有意义的信息。

4、数据用户和买家,是指数据价值链中从他人收集或聚合的数据中收益的人群。

大数据的数据量、多样性、变化范围和复杂性超出了传统的IT设备和数据处理工具及方法的处理能力。对大数据进行实时分析需要新的方法、架构和工具,以提供高性能、大规模并行处理(MPP)数据平台和对数据集的复杂分析。

数据科学是一门新兴的学科,商业组织可以利用这门学科从大数据中获取商业价值。数据科学是多门学科(统计学、数学、数据可视化和计算机科学)的综合。数据科学家的职责是设计各种高级算法对海量数据进行分析,以寻找新的价值点,为更多的决策提供数据支持。

很多领域和市场已经开始利用数据科学,从大数据的分析中获益。其中包括医学与科学研究、医疗医护、公共管理、欺诈检测、社交媒体、银行、保险公司,以及其他以数据为中心的实体。

 

应用于

 

帮助用户了解大数据相关概念。