常用AI算法知多少?他们的主要特征是什么?分别用在什么场景?
如何用1-3句话,让小白也能充分理解各算法?
本文梳理了20中常用AI算法极其简明解释,快来一起挑战“算法之王”呀!
1) 线性回归(Linear Regression):一种基于过去已经发生的事件来预测未来可能发生的事件的方法。例如,你能够根据过去的收入,使用线性回归来预测你未来的收入。
2) 逻辑回归(Logistic Regression):一种用于预测事件发生概率的统计分析。它是一种当因变量为二元(变量值只有0和1,或这是或否)时使用的回归分析。
3) 支持向量机(Support Vector Machines):一种可以从例子中学习并做出预测的模型。它常用于将事务分类。
4) 决策树(Decision Trees):一种通过穷举出所有可能的选项来帮助你做出决定的方法。构建出决策树后,你可以通过查看所有可能的结果来选出最优解。
5) 随机森林(Random Forests):用于预测事物。它通过查看一系列可能影响你尝试预测的事件的不同场景来学习,之后,再根据所学到的知识进行猜测。
6) 梯度提升算法(Gradient Boosting):一种将多个较弱模型结合起来,创建出更强模型的技术。较弱模型使用梯度下降算法开发,最终模型是所有较弱(相对最终模型而言)模型的加权组合。
7) 神经网络(Neural Networks):一种对数据中复杂模式(pattern)进行建模的机器学习算法。神经网络和其他机器学习算法一样,都可以学习识别输入数据的模式,但不同的是,神经网络由大量互相连接的处理节点(或者将其称为神经元)组成。
8) 主成分分析(Principal Component Analysis,简称PCA):一种用于查找数据模式的技术。它查看数据,并从中查找数据变化最大的方向。
9) 线性判别分析(Linear Discriminant Analysis,简称LDA):一种找出对预测目标变量最重要的一组变量(特性)的机器学习技术。LDA是一种可以通过分析数据来预测行为结果的方法,被用于识别数据中不同变量间的关系,然后再使用这些关系来预测未来。
10) K均值聚类(K-Means Clustering):机器学习中一种将数据进行分组,以便更可能找出数据之间的关联的技术。这是一种通过找到最近的数据点并将它们分成一组,来协助对数据点(例如,数据库中的记录)进行分组的方法。
11) 层次聚类(Hierarchical Clustering):是一种将数据项组合起来以使其更易理解的方法。它的工作原理是将数据分成组,再查看这些组之间的关系。它是一种在分层结构中将数据点组合在一起的方法,该算法从每个数据点自己所在的组开始,然后再与最近的组,合成一个新组,直到数据中只有一个组,即一个根节点。
12)DBSCAN(Density-Based Spatial Clustering of Applications with Noise):一种能将数据点聚集起来的算法。它通过分析数据点的密度,将相近的数据点分为一组。
13)高斯混合模型(Gaussian Mixture Models):它使用线性模型和非线性模型的混合模型来预测结果。它是一种预测一组对象行为的机器学习模型。此模型使用一组输入数据点来预测一组新输入数据点的行为。
14) 自动编码器(Autoencoders):可以学习到输入数据的隐含特征,称为编码(coding),同时用学习到的新特征可以重构出原始输入数据,称为解码(decoding)。它是一种用于学习如何压缩数据的神经网络。该算法的目标是学习一种较源数据占用空间更小的表示(编码)方法。
15) 孤立森林( Isolation Forest):用于检测数据中的异常值。它通过随机选择数据点并创建决策树来工作。如果该点是异常值,则将更容易地将其与其余数据分隔开。
16) 单类向量支持机( One-Class SVM):类似孤立森林,单类向量支持机同样被用来查找异常值:异常值的评估标准就是创建一条最能将数据分成两组的直线,任何远离这条直线的数据点都会被判别为异常值。
17) 局部线性嵌入(Locally Linear Embedding):一种用于数据降维的技术。它通过找到接近原始数据的另一数据的线性表示来做到这一点。局部线性嵌入是一种将数据集表示为空间中点序列的方法。这样,你可以更轻松地看出数据点之间的关系,并做出更好地预测。
18) t-SNE(t-distributed stochastic neighbor embedding):通过降低数据的维度来帮助我们可视化数据。t-SNE的工作原理是创建数据点的映射,然后找到在低维空间中表示这些点的最佳方法。
19) 独立成分分析(Independent Component Analysis,简称ICA):用于发现隐藏在数据中的模式(pattern),ICA通过查看数据中不同变量之间的关系来做到这一点。这是一种从混合信号中分离出各种单个信号的技术。
20) 因子分析:用于减少找到模式(pattern)需要分析的数据量。它通过识别有相似行为的数据元素组成的组来做到这一点。此外,它还用于减少展示模式需要分析的数据量,它通过识别具有相似行为的数据元素组成的组来实现这一点。实际上,它是一种用来理解数据集的哪些特征对预测结果必不可少的方法。
本文主要翻译自 Anil Tilbe,Top 20 Machine Learning Algorithms, Explained in Less Than 10 Seconds Each.