所谓人工智能,通俗地讲是指由人工制造出来的系统所表现出来的智能
机器学习简单来讲就是通过算法,使机器能从大量历史数据中学习规律,从而对新的样本做出智能识别或对未来做预测
机器学习是基于概率统计、矩阵或图模型而得出的分析结论
机器学习是人工智能的一个分支
深度学习是机器学习的一个新领域
监督学习 |
逻辑回归、K近邻、朴素贝叶斯、随机森立、支持向量机 |
无监督学习 |
K-means、DBSCAN、协同过滤、LDA |
半监督学习 |
标签传播 |
强化学习 |
隐马尔可夫 |
监督学习法Supervised Learning |
通过过往的一些数据的特征以及最终结果来进行训练的方式就是监督学习法 |
分类算法 K近邻、朴素贝叶斯、决策树、随机森林、GBDT和支持向量机等
回归算法 逻辑回归、线性回归等
|
无监督学习Unsupervised Learning |
是指训练样本不依赖于打标数据的机器学习算法:无监督学习主要是用来解决一些聚类场景的问题,因为当我们的训练数据缺失了目标值之后,能做的事情就只剩下比对不同样本间的距离关系
|
聚类算法 K-Means、DBSCAN等
推荐算法 协同过滤等
|
半监督学习Semi-supervised Learning |
对样本的部分打标来进行机器学习算法的使用,这种部分打标样本的训练数据的算法应用,就是半监督学习 |
目前很多半监督学习算法都是监督学习算法的变形,本书将介绍一种半监督学习算法——标签传播算法 |
强化学习Reinforcement Learning |
强调的是系统与外界不断地交互,获得外界的反馈,然后决定自身的行为。强化学习目前是人工智能领域的一个热点算法种类,典型的案例包括无人汽车驾驶和阿尔法狗下围棋。本书介绍的分词算法隐马尔科夫就是一种强化学习的思想。 |
无人汽车驾驶和阿尔法狗, 分词算法隐马尔科夫 |
场景解析是数据挖掘流程的第1步
过拟合(Over-fitting), |
是过度拟合的意思,常发生在线性分类器或者线性模型的训练和预测当中 |
|
精确率、召回率、F1值 |
|
|
数据探查 |
数据量的大小 数据缺失或乱码 字段类型 是否含有目标队列 |
ETL操作(描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程),称为“数据清洗 |
场景抽象 |
商品推荐 疾病预测 人物关系挖掘 |
把商品购买行为抽象成了“是”或者“否”这样的二分类问题 对应症状,所以只要挖掘每个时期的不同病变特征,就可以实现预测,进而可以把癌症预测抽象成一个多分类的场景 |
算法选择 |
确定算法范围 多算法尝试 多视角分析 |
|
数据预处理是数据挖掘流程的第2步
采样 |
随机采样 系统采样 分层采样 |
|
归一化 |
公式y=(x-MinValue)/(MaxValue- MinValue) |
归一化是指一种简化计算的方式,将数据经过处理之后限定到一定的范围之内,一般都会将数据限定在[0,1]。 可以加快算法的收敛速度 |
数据过滤 |
|
|
去除噪声 |
|
|
|
|
|
|
|
|