学习内容
大数据导论
数据分析与企业数据分析方向
对客观事务的 属性、状态、关系 的 计量和记录。
企业数据分析方向
现状分析 : 现阶段的整体情况
原因分析 : 对过去的数据进行分析
预测分析 : 结合已有的数据 预测未来的发展趋势
对应三种方法
离线分析: 面向过去 面向历史的 数据分析
1周 1天 一年 一个月 一分析
批处理
实时分析 : 时间间隔很短 可到秒级 毫秒级别。
机器学习 : 侧重数学算法
分类 聚类 关联 预测
概述 数据分析的基本流程
1明确分析目的和思路
数据分析方法论(营销管理类的相关理论)
PEST 等等
2数据收集
数据从无到有的过程 : 买个传感器 去收集
数据传输搬运的过程 :
业务数据 日志数据 爬虫数据 互联网公开数据
3数据预处理
把数据变成干净规整的结构化数据 :二维表数据 行列对应
数据清洗 数据转化 数据提取
4数据分析
使用数据分析软件
5数据可视化
图形、表格
还可以继续数据挖掘、即席查询
6报告撰写
大数据时代 big data
大数据概念来自 麦肯锡公司
2019 央视纪录片《大数据时代》(不用看科普的垃圾东西)
5v特征
1 Volume 数据体量大
Tb Pb
2 Variety 种类 来源多样化
结构化 非结构化 数据
3 Value 价值密度低
(不解释了)
4 Velocity 速度快
获取快 增长快
5 数据的质量
准确 可信度高
应用场景
电商广告 个性化推荐 大 数据杀熟
金融方面评估 : 贷款
交通领域 : 百度地图 高德地图 政府部门的红绿灯调整
电信领域 安防领域 医疗领域
分布式与集群
都是多台机器
分布式:每台机器不同组件
集群:每台机器相同组件
如何存储?
多台机器分布式存储
如何计算?
多台机器分布式计算
Linux
桌面操作系统
嵌入式操作系统
服务器操作系统
移动设备操作系统
Linux 与 Unix
Unix来源于贝尔实验室 有不断的 开源与版权的节分
1991年一个芬兰的大学生 自己写了一个 Linux 全部开源免费
Linux 是 类Unix操作系统(在外观,操作上非常类似)
Linux 内核
操作系统的核心部分
Linux操作系统 = 内核 + 开源软件 + 必要应用程序
全人类的共同开发拥有 但其本人有最终裁定权!
版本:
个人桌面版
服务器推荐Redhat 它的免费延深Centos 个人使用推荐ubantu
企业服务器版本
VMware
是一款 虚拟机软件
路径要没有中文没有空格
VM安装完成 根据教程很多
centOS 的导入
配置网段 比较复杂 就不记录了