学习内容

hadoop数据分析实训总结 hadoop数据分析培训_学习

                                                                        大数据导论

数据分析与企业数据分析方向

对客观事务的 属性、状态、关系 的 计量和记录。

企业数据分析方向

现状分析 : 现阶段的整体情况

原因分析 : 对过去的数据进行分析

预测分析 : 结合已有的数据 预测未来的发展趋势

对应三种方法 

离线分析: 面向过去 面向历史的 数据分析   

  1周 1天 一年 一个月 一分析

批处理

实时分析 : 时间间隔很短 可到秒级 毫秒级别。

机器学习 :    侧重数学算法

 分类  聚类  关联 预测

概述                                        数据分析的基本流程

1明确分析目的和思路

数据分析方法论(营销管理类的相关理论)

PEST 等等

2数据收集

数据从无到有的过程 :  买个传感器 去收集

数据传输搬运的过程 : 

业务数据        日志数据        爬虫数据        互联网公开数据

3数据预处理

把数据变成干净规整的结构化数据 :二维表数据 行列对应

数据清洗 数据转化 数据提取 

4数据分析

使用数据分析软件

5数据可视化

图形、表格

还可以继续数据挖掘、即席查询

6报告撰写

大数据时代  big data

大数据概念来自 麦肯锡公司

2019 央视纪录片《大数据时代》(不用看科普的垃圾东西)

5v特征

1 Volume 数据体量大

Tb Pb

2 Variety 种类 来源多样化

结构化 非结构化 数据

3 Value 价值密度低

(不解释了)

4 Velocity 速度快

获取快 增长快

5 数据的质量

准确 可信度高

应用场景

电商广告  个性化推荐 大 数据杀熟

金融方面评估 : 贷款

交通领域 : 百度地图 高德地图 政府部门的红绿灯调整

电信领域 安防领域 医疗领域

分布式与集群

都是多台机器

分布式:每台机器不同组件

集群:每台机器相同组件

如何存储?

多台机器分布式存储

如何计算?

多台机器分布式计算


                                        Linux

hadoop数据分析实训总结 hadoop数据分析培训_大数据_02

 桌面操作系统

嵌入式操作系统

服务器操作系统

移动设备操作系统

Linux 与 Unix

Unix来源于贝尔实验室  有不断的 开源与版权的节分

1991年一个芬兰的大学生 自己写了一个 Linux 全部开源免费

Linux 是 类Unix操作系统(在外观,操作上非常类似)

Linux 内核

操作系统的核心部分

Linux操作系统 = 内核 + 开源软件 + 必要应用程序

全人类的共同开发拥有  但其本人有最终裁定权!

版本:

个人桌面版

服务器推荐Redhat 它的免费延深Centos   个人使用推荐ubantu

企业服务器版本


                                        VMware

 是一款 虚拟机软件

路径要没有中文没有空格

VM安装完成 根据教程很多

hadoop数据分析实训总结 hadoop数据分析培训_数据_03

centOS 的导入

配置网段 比较复杂 就不记录了