大数据分析技术算法题大数据计算分析

转载

锦绣前程未央 2023-11-27 00:31:35

文章标签 大数据分析技术算法题数据挖掘大数据数据 文章分类 数据分析人工智能

背景: 云计算+大数据时代
政策: 突破大数据挖掘技术

一.什么是大数据

大数据： 人机交互的互联式计算系统（人生产资源，消耗资源，成为资源)

1.政界定义

推动信息计算能力实现:

按需供给
信息技术和数据资源充分利用

2.学界定义

基于互联网的相关的服务增加使用和交互的模式
虚拟化的资源服务

3.大数据具体特征

稠密与稀疏共存: 局部稠密与全局稀疏
冗余与缺失并存: 大量冗余与局部缺失
显式与隐式均有: 大量显式与丰富隐式
静态与动态互视: 动态演进与静态关联
多元与异质共处: 多元多变与异质异性
量大与可用矛盾：量大低值与可用稀少

二.大数据智能分析处理的挑战

1.系统平台的挑战

(1) 大数据系统处理与硬件协调
(2) 大数据集成
(3) 大数据隐私
(4) 大数据能耗
(5) 大数据管理

2.分析处理方面

(1) 大数据质量
(2) 大数据实时性
(3) 大数据采集
(4) 大数据不一致性
(5) 大数据超高维性
(6) 大数据不确定性

三.数据挖掘概述

1.数据挖掘基本流程

数据清洗： 消除噪声，删除不一致数据
数据集成： 多种数据集成，形成数据集市
数据选择： 从数据库中提取与分析相关的数据
数据变化： 通过汇总或聚焦，统一数据
数据挖掘： 智能方法提取数据
模式评估： 以兴趣为度量，识别代表知识的模式
知识表示： 可视化显示数据

2.数据挖掘功能

数据描述： 对某类对象的内涵进行概括，描述。

(1)聚类： 根据最大化类内相似性，最小化类内相似性，对数据进行子集划分。
(2)分类： 在知道训练元组分类情况下的 “监督” 学习
(3)关联分类： 多个变量之间的规律
(4)数据总结： 对数据进行浓缩，给出紧凑描述
(5)偏差预测： 寻找观察结果与参照值之间有意义的差别，并描述和解释差别原因
(6)预测： 对样本数据的关联性学习得到预测模型，从而进行未来的预测

3.数据挖掘运用的技术

统计学
机械学习
数据库与数据仓库
信息检索
可视化

4.大数据挖掘or传统数据挖掘

(1)大数据挖掘降低了对传统数据挖掘模型和算法的依赖
(2)大数据挖掘降低了因果关系对结果精度的影响
(3)大数据挖掘最大程度分析用户行为数据

四.大数据挖掘计算框架

大数据分析技术算法题大数据计算分析_数据挖掘

1.关键大数据框架

Hadoop架构	提供功能
Hadoop Common Package	系统交互及支撑
Hadoop Distributed File System	分布式文件管理系统
Hadoop YARN	任务调度和集群资源管理
MapReduce Engine	分布式计算
Hive	数据仓库工具将Mysql转换为MapReduce任务
HBase	分布式数据库，列数据库
Mahout	机械学习+和数据挖掘库
Spark	MapReduce 加钱升级版（基于内存，所以快和贵）

2.大数据挖掘处理基本流程

(1)数据采集：接受客户端数据
(2)数据存储：分布式存储数据
(3)ETL：用Sqoop，DataX处理数据
(4)数据计算：用MapReduc，Spark，Impala计算数据
(5)数据分析与挖掘：用Mahout，Mllib进行机器学习
(6)数据可视化：用D3，js，ECharts进行可视化

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：java桥梁模式 java 桥接

下一篇：openstack 没有可用域nova 没有可用的软件包openssh-server

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

大数据分析技术算法题 大数据计算分析

大数据分析技术算法题 大数据计算分析

一.什么是大数据

1.政界定义

2.学界定义

3.大数据具体特征

二.大数据智能分析处理的挑战

1.系统平台的挑战

2.分析处理方面

三.数据挖掘概述

1.数据挖掘基本流程

2.数据挖掘功能

3.数据挖掘运用的技术

4.大数据挖掘or传统数据挖掘

四.大数据挖掘计算框架

1.关键大数据框架

2.大数据挖掘处理基本流程

51CTO博客

大数据分析技术算法题大数据计算分析

大数据分析技术算法题大数据计算分析