课程说明

机器学习算法为主的课程,结合软件的使用和部分案例

课程需要有一定的数学素养,数学是能表达量化关系和算法的唯一语言

将机器学习算法用于大数据挖掘,是本课程的主要目标,但也会讲述其它的机器学习覆盖领域

参考书大多艰涩,言简意赅,但通过精读即使能掌握部分也能有很大收获。希望学习者可以坚持

怎样把复杂的算法用浅显易懂的方式和例子,向非专业人士清晰表达,是本课程的最大挑战

课程内容可能会根据授课情况作出调整

课程周期视内容难度每1-2周一次授课

课程目标

  • 熟悉课程里所介绍的各种算法的细节
  • 懂得如何使用这些算法去解决实际场景问题
  • 熟悉了解常用的机器学习和数据挖掘软件
  • 育成目标:数据分析师,算法设计师,具备算法设计能力的高层次程序员

什么是机器学习

机器学习是一门多领域交叉学科。专门研究计算机或其他软硬件设备怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自己的性能。

应用机器学习技术到产品中,给用户带来“机器具备人类般高智能”的震撼体验。人力成本越来越高,机器学习能降低企业成本,提高投入产出比。

第二次工业革命——以具备人类智能为核心价值的机器占主导地位(第一次工业革命——功力系统革命),对国家软实力具备重要作用。

机器学习是人工智能研究的核心内容。它的应用已遍及人工智能的各个分支,如专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人等领域。

机器学习在数据挖掘里被大量使用,其技术内涵几乎通用,可以看做同一座山峰在不同视角下的侧影。

机器学习比较活跃的领域

数据分析和数据挖掘:机器学习实现一套工具、方法或程式,从现实世界的海量数据里提炼出有价值的知识,规则和模式。并把该提炼成果应用到前台系统,辅助业务的进行,使其达到更好的效果。例如:推荐、辅助决策(沙盘推演、博弈、预测结果),精准辨别、参与服务等,使得业务能产生更大的效益。

图像和语音识别:语音输入、OCR、手写输入、通讯监控、车牌识别、指纹识别、虹膜识别、脸部识别

智慧机器和机器人:生产线机器人、人机对话、电脑博弈

与机器学习相关的软件

R

Weka:WEKA=Waikato Environment for Knowledge Analysis。免费的、非商业化的,基于JAVA环境下开源的机器学习以及数据挖掘软件。Weka的主要开发者来自新西兰的Waikato大学。官网:http://www.cs.waikato.ac.nz/ml/weka/

Petaho:http://community.pentaho.com/projects/data-mining/

MATLAB:NATLAB=matrix+laboratory,是由美国mathworks公司发布的主要面对科学计算、可视化以及交互式程序设计的高科技计算环境。MATLAB和Mathematica、Maple并称为三大数学软件。具有功能完善、强大的神经网络包。

Python:Guido van Rossumzai 1989年创立Python。适合于“快速原型代码”的开发。

SciPy:http://scipy.org/install.html

Matplotlib:http://matplotlib.org/

具有代表性的算法

回归测试及相应的降维技术:线性回归,Logistic回归,主成分分析,因子分析,岭回归,LASSO

分类器:决策树,朴素贝叶斯,贝叶斯信念网络,支持向量机,提升分类器准确率的Adaboost和随机森林算法

聚类与孤立点判定

人工神经网络