本文对常用文本分类算法进行了比较,第一部分包括Rocchio算法,boosting,bagging,,逻辑回归,朴素贝叶斯分类器,k最近邻和支持向量机。另外还包括决策树、条件随机场、随机森林和深度学习算法。
第二部分将文本分类技术与标准进行了比较:体系结构、作者、模型、新颖性、特征提取、细节、语料库、验证措施和每种技术的局限性。每个文本分类技术(系统)都包含一个模型,该模型是分类器算法,还需要一个特征提取技术,即将文本或文档数据集转换为数字数据。还列出了用于评估系统的验证措施。


文章目录

  • 文本分类算法
  • 文本分类技术与标准


文本分类算法



Model 

Advantages

Pitfall

Rocchio Algorithm

•易于实施

•计算成本非常低

•相关性反馈机制(将文档排序为不相关文档的好处)

•用户只能检索一些相关文档

•Rocchio经常将多模态的类型错误分类

•该技术不是很可靠

•该算法中的线性组合不适用于多类数据集

Boosting and Bagging

•提高稳定性和准确性(利用集成学习,在多个弱学习者中优于单个强学习者)

•减少方差,有助于避免过度拟合问题

•计算复杂性

•可解释性损失(如果模型数量高,则很难理解模型)

•需要仔细调整不同的超参数

Logistic Regressio

•易于实现

•不需要太多计算资源

•不需要缩放输入功能(预处理)

•不需要任何调整

•它不能解决非线性问题

•预测要求每个数据点都是独立的

•试图根据一组独立变量预测结果

Naïve Bayes Classifier

•它与文本数据很好地配合使用

•易于实现

•与其他算法相比速度更快


•关于数据分布形状的强有力假设

•受数据稀缺性的限制,对于特征空间中的任何可能值,必须由专职人员估计似然值

K-Nearest Neighbor

•对文本数据集有效

•非参数化

•考虑到文本或文档的更多本地特性

•自然处理多类数据集

•此模型的计算非常昂贵

•难以找到k的最优值

•对于大型搜索问题的约束条件,无法找到最近的邻居

•对于文本数据集很难找到有意义的距离函数

Support Vector

Machine (SVM)

•支持向量机可以建模非线性决策边界

•线性分离时执行与逻辑回归类似的功能

•对过度拟合问题(尤其是高维空间导致的文本数据集)具有鲁棒性。


•由于大量维度(尤其是文本数据)导致结果缺乏透明度。

•选择一个有效的内核函数是困难的(易受过拟合/训练问题的影响,取决于内核)

•内存复杂性

 

 

Model   

Advantages

Pitfall

Decision Tree

•可以轻松处理定性(分类)特征

•与与特征轴平行的决策边界很好地工作

•决策树是用于学习和预测的非常快速的算法

•对角线决策边界问题

•容易过度拟合

•对数据中的小扰动非常敏感

•样本外预测问题

Conditional

Random Field

(CRF)

•它的特征设计是灵活的

•由于CRF计算全局最优输出节点的条件概率,它克服了标签偏差的缺点

•结合分类和图形建模的优点,这些优点结合了对多维数据进行紧凑建模的能力


•训练步骤的计算复杂度高

•Rhis算法不使用未知单词执行

•在线学习问题(当有新数据可用时,很难重新训练模型)


Random Forest

•与其他技术相比,决策树集合的训练速度非常快

•方差减少(相对于常规树)

•不需要准备和预处理输入数据

•训练后创建预测的速度非常慢

•森林中的更多树木增加了预测步骤的时间复杂性

•不容易直观解释

•很容易发生过度拟合

•需要选择森林中的树木数量


Deep Learning

•特征设计灵活(减少了对特征工程的需求,这是机器学习实践中最耗时的部分之一)

•可适应新问题的架构

•可处理复杂的输入输出映射

•可以很容易地处理在线学习(当新的数据可用时,可以很容易地重新培训模型)

•并行处理能力(它可以同时执行多个作业)

•需要大量数据(如果您只有小样本文本数据,那么深度学习不可能比其他方法更好。

•培训的计算成本极高。

•模型的可解释性是深度学习最重要的问题(深度学习大部分时间是一个黑匣子)

•寻找一个有效的架构和结构仍然是这种技术的主要挑战。

 

文本分类技术与标准



Model

Author(s)

Architecture

Novelty(创新)

Feature Extraction

Details

Corpus

Validation Measure

Limitation

Rocchio

Algorithm

B.J. Sowmya et al.

Hierarchical

Rocchio

Classificationon hierarchical data

TF-IDF

使用GPU上的CUDA计算和比较距离。

Wikipedia

F1-Macro

仅适用于分层数据集并检索一些相关文档

Boosting

S. Bloehdorn et al.

 

具有语义特征的ADaboost

BOW

集成学习算法

Reuters-21578

F1-Macro

and

F1-Micro

计算复杂性和可解释性损失

Logistic

Regression

A. Genkin et al.

Bayesian

Logistic

Regression

高维数据的逻辑回归分析

TF-IDF

它基于高斯先验和岭逻辑回归

RCV1-v2

F1-Macro

预测结果基于一组自变量

Naïve

Bayes

Kim, S.B et al.

Weight

Enhancing

Method

文本分类的多元泊松模型

Weights

words

按文档项频率标准化以估计泊松参数

Reuters-21578

F1-Macro

这种方法对数据分布的形状作出了强有力的假设。

 

SVM and

KNN

K. Chen et al.

Inverse

Gravity

Moment

Introduced TFIGM (term

frequency & inverse

gravity moment)

TF-IDF

and

TFIGM

结合一个统计模型来精确测量一个词的分类识别能力。

20

Newsgroups

and

Reuters-21578

F1-Macro

未能捕捉到一词多义,语义和句子仍未解决

 

Support

Vector

Machines

H. Lodhi et al.

字符串子序列内核

Use of a special kernel

使用tf-idf的相似性

内核是特征空间中由长度k的所有子序列生成的内积。

Reuters-21578

F1-Macro

结果缺乏透明度

Conditional

Random

Field

(CRF)

T. Chen et al.

BiLSTM-CRF

应用基于神经网络的序列模型,根据句子中出现的目标数目,将固定句分为三类

 

Word

embedding

通过句子类型分类改进句子层次情感分析

Customer

reviews

Accuracy

计算复杂度高,该算法不适用于看不见的单词。

 

Model

Author(s)

Architecture

Novelty(创新)

Feature Extraction

Details

Corpus

Validation Measure

Limitation

Deep

Learning

Z. Yang et al.

Hierarchical

Attention

Networks

它有一个层次结构

Word

embedding

单词和句子两级注意机制

Yelp, IMDB

review, and

Amazon

review

Accuracy

仅适用于文档级别

Deep

Learning

J. Chen et al.

Deep Neural

Networks

使用二维TF-IDF特征的卷积神经网络(CNN)

2D TF-IDF

语言攻击性检测任务的新解决方案

Twitter

comments

F1-Macro

and

F1-Micro

数据依赖以设计模型架构

Deep

Learning

M. Jiang et al.

Deep Belief

Network

基于深度信念网络和softmax回归的混合文本分类模型。

 

DBN

DBN完成了特征学习,以解决高维和稀疏矩阵问题,并使用softmax回归对文本进行分类

Reuters-21578

and

20-Newsgroup

Error-rate

计算上很昂贵,并且模型的可解释性仍然是该模型的问题

 

Deep

Learning

X. Zhang et al.

CNN

用于文本分类的字符级卷积网络(ConvNets)

 

Encoded

Characters

字符级别的ConvNet包含6个卷积层和3个全连接层

Yelp, Amazon

review and

Yahoo!

Answers data

set

Relative

errors

该模型仅用于发现其输入的位置不变特征

Deep

Learning

K. Kowsari

集成深度学习算法(CNN,DNN和RNN)

解决寻找最佳的深度学习结构和架构的问题

TF-IDF

and GloVe

随机多模型深度学习(RDML)

IMDB review,

Reuters-21578,

20NewsGroup,

and WOS

Accuracy

计算上很贵

Deep

Learning

K. Kowsari

Hierarchical

structure

利用大量的深入学习体系结构,在文档层次结构的各个级别提供专门的理解。

TF-IDF

and GloVe

文本分类的层次深度学习(HDLTEX)

Web of science

data set

Accuracy

仅适用于分层数据集