物联网与大数据技术(大数据篇)
- 一.大数据的7个问题
- 1.产生背景
- 2.发展历程
- 3.结构与特征
- 4.涉及到的关键技术
- 5.与大数据相关的概念
- 6.发展趋势
- 7.未来前景
- 二.云计算
- 1.定义
- 2.五个特性
- 3.云计算服务类型
- 4.云计算、物联网、大数据的关系
- 三.资料拓展
一.大数据的7个问题
1.产生背景
(1) 信息科技进步,包括互联网的兴起、移动设备的普及。
(2) 云计算等技术的发展。
(3) 数据资源化趋势。
2.发展历程
一阶段:1980-2000年,数据挖掘理论+数据库技术逐步成熟,一些BI(商业智能)被开发应用。
二阶段:2000-2010年,Web2.0应用,两大核心技术即并行计算与分布式系统(谷歌的GFS和MapReduce,后来诞生了Hadoop)。
三阶段:2010年至今,大数据渗透到各行各业。
3.结构与特征
大数据的结构:
大数据的特征:4V特征
- Volume(大量)——数据体量巨大
- Velocity(高速)——处理速度快
- Variety(多样)——数据类别多种多样
- Veracity(精确)——数据价值高,密度低
4.涉及到的关键技术
- 数据采集与预处理(ETL)
利用ETL工具将来源不同的数据抽取进行 清洗、转换、集成,最后加载到数据仓库中。 - 数据存储与管理(HDFS、DB)
利用分布式文件系统、数据仓库等技术,实现对大数据的存储和管理。 - 数据处理与分析(MapReduce、Spark)
利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,将分析结果可视化,同时提供决策方案。 - 数据安全与隐私保护
构建隐私数据保护体系和数据安全体系,保护个人隐私和数据安全。
5.与大数据相关的概念
- 大数据:一种规模巨大的数据集合,有 特征。
- 数据库:一种长期存储在计算机内、有组织的、可共享的数据集合。
- 数据仓库:一种面向主题、集成的、相对稳定的、反映历史变化的数据集合。
- 数据挖掘:是从大量的、有噪声的、随机的数据中,提取隐含在其中的信息和知识的过程。
- 数据经纬(Data Fabric):是一种数据架构,可以动态协调分布式数据源,跨平台地提供数据。
6.发展趋势
趋势一:数据的资源化,所谓资源化,即指大数据成为企业和社会关注的重要战略资源,已成为大家争相争夺的新焦点。
缺失二:大数据生态链更加复杂。
趋势三:大数据与云计算深度结合。
趋势四:数据质量是BI(商业智能)的成功关键。
趋势五:数据泄露泛滥。
7.未来前景
数字核心产业占GDP比重逐年增大,而大数据是数字核心产业的重要组成部分。国家实施“云计算和大数据”重点专项。我国在大数据领域突破了一些关键技术。同时国内互联网公司推出的大数据平台和服务,处理能力跻身于世界前列。
二.云计算
1.定义
中文定义:是分布式计算的一种,指将 对大数据的计算 分解成无数个小程序,通过多服务器构成的系统 处理小程序并将结果返回给用户。
英文定义:Cloud computing is on-demand access,via the internet,to computing resources——applications,servers,development networks, and more——hosted at a remote data center managed by a cloud services provider.
2.五个特性
- 弹性服务
服务的规模可快速伸缩,以便自动适应业务。 - 资源池化
资源以 共享资源池 的方式统一管理。 - 按需服务
- 服务可计费
使用服务时可被监控与量测 - 泛在接入
- 随时随地可用任何网络设备访问
3.云计算服务类型
- 基础设施即服务 IaaS
它向 云计算提供商的个人或组织 提供虚拟化计算资源,如虚拟机、操作系统。 - 平台即服务 PaaS
- 为开发人员提供平台,帮助他们开发新的应用程序。
- 软件即服务 SaaS
提供给用户软件,包括产品及服务。
4.云计算、物联网、大数据的关系
简单来说,就是物联网产生了大量数据,大数据一系列技术为物联网的数据分析提供支撑。其中云计算为大数据提供了技术基础。