机器学习算法为主的课程,结合软件的使用和部分案例
课程需要有一定的数学素养,数学是能表达量化关系和算法的唯一语言
将机器学习算法用于大数据挖掘,是本课程的主要目标,但也会讲述其它的机器学习覆盖领域
参考书大多艰涩,言简意赅,但通过精读即使能掌握部分也能有很大收获。希望学习者可以坚持
怎样把复杂的算法用浅显易懂的方式和例子,向非专业人士清晰表达,是本课程的最大挑战
课程内容可能会根据授课情况作出调整
课程周期视内容难度每1-2周一次授课
课程目标
- 熟悉课程里所介绍的各种算法的细节
- 懂得如何使用这些算法去解决实际场景问题
- 熟悉了解常用的机器学习和数据挖掘软件
- 育成目标:数据分析师,算法设计师,具备算法设计能力的高层次程序员
什么是机器学习
机器学习是一门多领域交叉学科。专门研究计算机或其他软硬件设备怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自己的性能。
应用机器学习技术到产品中,给用户带来“机器具备人类般高智能”的震撼体验。人力成本越来越高,机器学习能降低企业成本,提高投入产出比。
第二次工业革命——以具备人类智能为核心价值的机器占主导地位(第一次工业革命——功力系统革命),对国家软实力具备重要作用。
机器学习是人工智能研究的核心内容。它的应用已遍及人工智能的各个分支,如专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人等领域。
机器学习在数据挖掘里被大量使用,其技术内涵几乎通用,可以看做同一座山峰在不同视角下的侧影。
机器学习比较活跃的领域
数据分析和数据挖掘:机器学习实现一套工具、方法或程式,从现实世界的海量数据里提炼出有价值的知识,规则和模式。并把该提炼成果应用到前台系统,辅助业务的进行,使其达到更好的效果。例如:推荐、辅助决策(沙盘推演、博弈、预测结果),精准辨别、参与服务等,使得业务能产生更大的效益。
图像和语音识别:语音输入、OCR、手写输入、通讯监控、车牌识别、指纹识别、虹膜识别、脸部识别
智慧机器和机器人:生产线机器人、人机对话、电脑博弈
与机器学习相关的软件
R
Weka:WEKA=Waikato Environment for Knowledge Analysis。免费的、非商业化的,基于JAVA环境下开源的机器学习以及数据挖掘软件。Weka的主要开发者来自新西兰的Waikato大学。官网:http://www.cs.waikato.ac.nz/ml/weka/
Petaho:http://community.pentaho.com/projects/data-mining/
MATLAB:NATLAB=matrix+laboratory,是由美国mathworks公司发布的主要面对科学计算、可视化以及交互式程序设计的高科技计算环境。MATLAB和Mathematica、Maple并称为三大数学软件。具有功能完善、强大的神经网络包。
Python:Guido van Rossumzai 1989年创立Python。适合于“快速原型代码”的开发。
SciPy:http://scipy.org/install.html
Matplotlib:http://matplotlib.org/
具有代表性的算法
回归测试及相应的降维技术:线性回归,Logistic回归,主成分分析,因子分析,岭回归,LASSO
分类器:决策树,朴素贝叶斯,贝叶斯信念网络,支持向量机,提升分类器准确率的Adaboost和随机森林算法
聚类与孤立点判定
人工神经网络