贝叶斯分类器
核心:将样本判定为后验概率最大的类
决策树
核心:一组嵌套的判定规则
KNN算法
核心:模板匹配,将样本分到离它最相似的样本所属的类
PCA
核心:向重构误差最小(方差最大)的方向做线性投影
LDA
核心:向最大化类间差异、最小化类内差异的方向线性投影
LLE(流形学习)
核心:用一个样本点的邻居的线性组合近似重构这个样本,将样本投影到低维空间中后依然保持这种线性组合关系
等距映射(流形学习)
核心:将样本投影到低维空间之后依然保持相对距离关系
人工神经网络
核心:一个多层的复合函数
支持向量机
核心:最大化分类间隔的线性分类器(不考虑核函数)
logistic回归
核心:直接从样本估计出它属于正负样本的概率
随机森林
核心:用有放回采样的样本训练多棵决策树,训练决策树的每个节点是只用了无放回抽样的部分特征,预测时用这些树的预测结果进行投票
AdaBoost算法
核心:用多棵决策树的线性组合来预测,训练时重点关注错分的样本,准确率高的弱分类器权重大
卷积神经网络
核心:一个共享权重的多层复合函数
循环神经网络
核心:综合了复合函数和递推数列的一个函数
K均值算法
核心:把样本分配到离它最近的类中心所属的类,类中心由属于这个类的所有样本确定
Kmeans --
优点:
原理简单
速度快
对大数据集有比较好的伸缩性
缺点:
需要指定聚类 数量K
对异常值敏感
对初始值敏感
refer : https://blog.csdn.net/sigai_csdn/article/details/80691609