1. 分类与预测

分类预测是两种数据分析形式,它们可以用来抽取能够描述重要数据集合预测未来数据趋势的模型分类方法(Classification)用于预测数据对象的离散类别(Categorical Label);预测方法(Prediction )用于预测数据对象的连续取值

训练:训练集——>特征选取——>训练——>分类器

分类:新样本——>特征选取——>分类——>判决

2. 决策树

决策树是将特征的判别序列形成一颗树根到叶子节点进行每个节点的判叶子节点处对应某个类别标号,就是最终的分类结果。决策树分类的关键是树的构造,由每个节点引申每个属性的判别分支。如何选择特征属性的判别顺序?一种方法是利用每个特征对最终分类结果的区分度(训练集中),常用的区分标准有卡方,信息增益,信息增益率。ID3,C4.5,CHAID,CART,Quest和C5.0

思想:

1)树以代表训练样本的单个结点开始。

2)如果样本都在同一个类.则该结点成为树叶,并用该类标记。

3)否则,算法选择最有分类能力的属性作为决策树的当前结点.

4)根据当前决策结点属性取值的不同,将训练样本 数据集tlI分为若干子集,每个取值形成一个分枝,有几个取值形成几个分枝。匀针对上一步得到的一个子集,重复进行先前步骤,递4'I形成每个划分样本上的决策树。一旦一个属性出现在一个结点上,就不必在该结点的任何后代考虑它。

5)递归划分步骤仅当下列条件之一成立时停止:

①给定结点的所有样本属于同一类。

②没有剩余属性可以用来进一步划分样本.在这种情况下.使用多数表决,将给定的结点转换成树叶,并以样本中元组个数最多的类别作为类别标记,同时也可以存放该结点样本的类别分布,

③如果某一分枝tc,没有满足该分支中已有分类的样本,则以样本的多数类创建一个树叶。

(1)ID3算法

(2)C4.5算法

(3)CART算法

(4)CHAID算法

(5)Quest算法

3. 贝叶斯分类

贝叶斯分类是利用贝叶斯公式,通过计算每个特征下分类的条件概率,来计算某个特征组合实例的分类概率选取最大概率的分类作为分类结果朴素贝叶斯分类要求各特征间是相互独立的,对异常的反应敏感。常见的贝叶斯分类器有Naive Bayes, TAN, BAN, GBN等方法。针对贝叶斯分类的需要特征相互独立的要求,产生了贝叶斯网络。贝叶斯网络又称信度网络,是贝叶斯方法的扩展,基于概率推理图形化网络,贝叶斯公式仍然是这个概率网络的基础。建立起网络节点关系后,需要进行概率估计,其构成一个有向图,每个有向边有个概率,有向边两端的事件具有一定的因果关系,训练便是从历史中发掘这种因果关系的可信度,这是很难的,因为很难收集到高质量的历史数据,而且对于概率的计算,历史数据要很多。马尔科夫链就是一种特殊的贝叶斯网络,他限制每种状态只与前一种状态有关,贝叶斯网络可以允许某种与几种状态有关。


4. KNN法(K-Nearest Neighbor)

KNN算法是一种最简单实用的算法。其利用训练集中最接近的K个点的类别(最多频数类别)来作为新增点的类别判断,但其当数据量很大时计算效率是个问题,这也是算法中时间空间的平衡问题,一个方面的简单会导致另一个方面的复杂,在某个方面占了便宜,那在其他地方会付出代价。




5. SVM法

SVM法即支持向量机(Support Vector Machine)法,由Vapnik等人于1995年提出,具有相对优良的性能指标。该方法是建立在统计学习理论基础上的机器学习方法。通过学习算法,SVM可以自动寻找出那些对分类有较好区分能力的支持向量,由此构造出的分类器可以最大化类与类的间隔,因而有较好的适应能力和较高的分准率。该方法只需要由各类域的边界样本的类别来决定最后的分类结果。

支持向量机算法的目的在于寻找一个超平面H(d),该超平面可以将训练集中的数据分开,且与类域边界的沿垂直于该超平面方向的距离最大,故SVM法亦被称为最大边缘(maximum margin)算法。待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响,SVM法对小样本情况下的自动分类有着较好的分类结果


6. 神经网络

神经网络分类算法的重点是构造阈值逻辑单元,一个值逻辑单元是一个对象,它可以输入一组加权系数的量,对它们进行求和,如果这个和达到或者超过了某个阈值,输出一个量。如有输入值X1, X2, ..., Xn 和它们的权系数:W1, W2, ..., Wn,求和计算出的 Xi*Wi ,产生了激发层 a = (X1 * W1)+(X2 * W2)+...+(Xi * Wi)+...+ (Xn * Wn),其中Xi 是各条记录出现频率或其他参数,Wi是实时特征评估模型中得到的权系数。神经网络是基于经验风险最小化原则的学习算法,有一些固有的缺陷,比如层数和神经元个数难以确定,容易陷入局部极小,还有过学习现象,这些本身的缺陷在SVM算法中可以得到很好的解决




7. VSM法

VSM法即向量空间模型(Vector Space Model)法,由Salton等人于60年代末提出。这是最早也是最出名的信息检索方面的数学模型。其基本思想是将文档表示为加权的特征向量:D=D(T1,W1;T2,W2;…;Tn,Wn),然后通过计算文本相似度的方法来确定待分样本的类别。当文本被表示为空间向量模型的时候,文本的相似度就可以借助特征向量之间的内积来表示。

在实际应用中,VSM法一般事先依据语料库中的训练样本和分类体系建立类别向量空间。当需要对一篇待分样本进行分类的时候,只需要计算待分样本和每一个类别向量的相似度即内积,然后选取相似度最大的类别作为该待分样本所对应的类别。

由于VSM法中需要事先计算类别的空间向量,而该空间向量的建立又很大程度的依赖于该类别向量中所包含的特征项。根据研究发现,类别中所包含的非零特征项越多,其包含的每个特征项对于类别的表达能力越弱。因此,VSM法相对其他分类方法而言,更适合于专业文献的分类。