随着 2015 年 9 月gwy发布了《关于印发促进大数据发展行动纲要的tongzh》,各类型数据呈 现出了指数级增长,数据成了每个组织的命脉。今天所产生的数据比过去几年所产生的数据大好几 个数量级,企业有了能够轻松访问和分析数据以提高性能的新机会,如何从数据中获取价值显得尤 为重要,也是大数据相关技术急需要解决的问题。大数据是需要新处理模式才能具有更强的决策力、 洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。数据建模不仅仅是任意组 织数据结构和关系,还必须与最终用户的需求和问题联系起来,并提供指导,帮助确保正确的数据 正确使用正确的方法获得正确的结果。
目标
1.掌握大数据建模分析与使用方法。
2.掌握大数据平台技术架构。
3.掌握国内外主流的大数据分析与 BI 商业智能分析解决方案。
4.掌握大数据分析在搜索引擎、广告服务推荐、 电商数据分析、金融客户分析方面的应用。
5.掌握主流的基于大数据 Hadoop 和Spark、R 的大数据分析平台架构和实际应用。
6.掌握基于 Hadoop 大数据平台的数据挖掘和数据仓库分布式系统平台应用,以及商业和开源的数据分析产 品加上 Hadoop 平台形成大数据分析平台的应用剖析。
7.掌握常见的机器学习算法。
学习计划
二、大数据处理 架构 Hadoop
三、分布式文件 系统 HDFS
四、分布式数据 库 HBase
五、MapReduce
六、Spark
七 、IPython Notebook 运 行 Python Spark 程序
八 、 Python Spark 集成开发环境
九 、 Python Spark 决策树二分类与多分类
十 、 Python Spark 支持向量机
十一、Python Spark 贝叶斯模型
十二、Python Spark 逻辑回归
十三、Python Spark 回归分析
十 四 、 Spark ML Pipeline 机器学 习 流程分类
十五、Python Spark 创建推荐引擎
十六、项目实践