人工智能,机器学习,深度学习

原创

深圳大树 2021-07-23 09:32:22 ©著作权

文章标签 其他 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者深圳大树的原创作品，请联系作者获取转载授权，否则将追究法律责任

所谓人工智能，通俗地讲是指由人工制造出来的系统所表现出来的智能

机器学习简单来讲就是通过算法，使机器能从大量历史数据中学习规律，从而对新的样本做出智能识别或对未来做预测

机器学习是基于概率统计、矩阵或图模型而得出的分析结论

机器学习是人工智能的一个分支

深度学习是机器学习的一个新领域

监督学习法Supervised Learning	通过过往的一些数据的特征以及最终结果来进行训练的方式就是监督学习法	分类算法 K近邻、朴素贝叶斯、决策树、随机森林、GBDT和支持向量机等回归算法逻辑回归、线性回归等
无监督学习Unsupervised Learning	是指训练样本不依赖于打标数据的机器学习算法:无监督学习主要是用来解决一些聚类场景的问题，因为当我们的训练数据缺失了目标值之后，能做的事情就只剩下比对不同样本间的距离关系	聚类算法 K-Means、DBSCAN等推荐算法协同过滤等
半监督学习Semi-supervised Learning	对样本的部分打标来进行机器学习算法的使用，这种部分打标样本的训练数据的算法应用，就是半监督学习	目前很多半监督学习算法都是监督学习算法的变形，本书将介绍一种半监督学习算法——标签传播算法
强化学习Reinforcement Learning	强调的是系统与外界不断地交互，获得外界的反馈，然后决定自身的行为。强化学习目前是人工智能领域的一个热点算法种类，典型的案例包括无人汽车驾驶和阿尔法狗下围棋。本书介绍的分词算法隐马尔科夫就是一种强化学习的思想。	无人汽车驾驶和阿尔法狗, 分词算法隐马尔科夫

场景解析是数据挖掘流程的第1步

过拟合（Over-fitting），	是过度拟合的意思，常发生在线性分类器或者线性模型的训练和预测当中
精确率、召回率、F1值
数据探查	数据量的大小数据缺失或乱码字段类型是否含有目标队列	ETL操作（描述将数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程），称为“数据清洗
场景抽象	商品推荐疾病预测人物关系挖掘	把商品购买行为抽象成了“是”或者“否”这样的二分类问题对应症状，所以只要挖掘每个时期的不同病变特征，就可以实现预测，进而可以把癌症预测抽象成一个多分类的场景
算法选择	确定算法范围多算法尝试多视角分析

数据预处理是数据挖掘流程的第2步

采样	随机采样系统采样分层采样
归一化	公式y=(x-MinValue)/(MaxValue- MinValue)	归一化是指一种简化计算的方式，将数据经过处理之后限定到一定的范围之内，一般都会将数据限定在[0,1]。可以加快算法的收敛速度
数据过滤
去除噪声