本文对常用文本分类算法进行了比较,第一部分包括Rocchio算法,boosting,bagging,,逻辑回归,朴素贝叶斯分类器,k最近邻和支持向量机。另外还包括决策树、条件随机场、随机森林和深度学习算法。
第二部分将文本分类技术与标准进行了比较:体系结构、作者、模型、新颖性、特征提取、细节、语料库、验证措施和每种技术的局限性。每个文本分类技术(系统)都包含一个模型,该模型是分类器算法,还需要一个特征提取技术,即将文本或文档数据集转换为数字数据。还列出了用于评估系统的验证措施。
文章目录
- 文本分类算法
- 文本分类技术与标准
文本分类算法
Model | Advantages | Pitfall |
Rocchio Algorithm | •易于实施 •计算成本非常低 •相关性反馈机制(将文档排序为不相关文档的好处) | •用户只能检索一些相关文档 •Rocchio经常将多模态的类型错误分类 •该技术不是很可靠 •该算法中的线性组合不适用于多类数据集 |
Boosting and Bagging | •提高稳定性和准确性(利用集成学习,在多个弱学习者中优于单个强学习者) •减少方差,有助于避免过度拟合问题 | •计算复杂性 •可解释性损失(如果模型数量高,则很难理解模型) •需要仔细调整不同的超参数 |
Logistic Regressio | •易于实现 •不需要太多计算资源 •不需要缩放输入功能(预处理) •不需要任何调整 | •它不能解决非线性问题 •预测要求每个数据点都是独立的 •试图根据一组独立变量预测结果 |
Naïve Bayes Classifier | •它与文本数据很好地配合使用 •易于实现 •与其他算法相比速度更快 | •关于数据分布形状的强有力假设 •受数据稀缺性的限制,对于特征空间中的任何可能值,必须由专职人员估计似然值 |
K-Nearest Neighbor | •对文本数据集有效 •非参数化 •考虑到文本或文档的更多本地特性 •自然处理多类数据集 | •此模型的计算非常昂贵 •难以找到k的最优值 •对于大型搜索问题的约束条件,无法找到最近的邻居 •对于文本数据集很难找到有意义的距离函数 |
Support Vector Machine (SVM) | •支持向量机可以建模非线性决策边界 •线性分离时执行与逻辑回归类似的功能 •对过度拟合问题(尤其是高维空间导致的文本数据集)具有鲁棒性。 | •由于大量维度(尤其是文本数据)导致结果缺乏透明度。 •选择一个有效的内核函数是困难的(易受过拟合/训练问题的影响,取决于内核) •内存复杂性 |
Model | Advantages | Pitfall |
Decision Tree | •可以轻松处理定性(分类)特征 •与与特征轴平行的决策边界很好地工作 •决策树是用于学习和预测的非常快速的算法 | •对角线决策边界问题 •容易过度拟合 •对数据中的小扰动非常敏感 •样本外预测问题 |
Conditional Random Field (CRF) | •它的特征设计是灵活的 •由于CRF计算全局最优输出节点的条件概率,它克服了标签偏差的缺点 •结合分类和图形建模的优点,这些优点结合了对多维数据进行紧凑建模的能力 | •训练步骤的计算复杂度高 •Rhis算法不使用未知单词执行 •在线学习问题(当有新数据可用时,很难重新训练模型) |
Random Forest | •与其他技术相比,决策树集合的训练速度非常快 •方差减少(相对于常规树) •不需要准备和预处理输入数据 | •训练后创建预测的速度非常慢 •森林中的更多树木增加了预测步骤的时间复杂性 •不容易直观解释 •很容易发生过度拟合 •需要选择森林中的树木数量 |
Deep Learning | •特征设计灵活(减少了对特征工程的需求,这是机器学习实践中最耗时的部分之一) •可适应新问题的架构 •可处理复杂的输入输出映射 •可以很容易地处理在线学习(当新的数据可用时,可以很容易地重新培训模型) •并行处理能力(它可以同时执行多个作业) | •需要大量数据(如果您只有小样本文本数据,那么深度学习不可能比其他方法更好。 •培训的计算成本极高。 •模型的可解释性是深度学习最重要的问题(深度学习大部分时间是一个黑匣子) •寻找一个有效的架构和结构仍然是这种技术的主要挑战。 |
文本分类技术与标准
Model | Author(s) | Architecture | Novelty(创新) | Feature Extraction | Details | Corpus | Validation Measure | Limitation |
Rocchio Algorithm | B.J. Sowmya et al. | Hierarchical Rocchio | Classificationon hierarchical data | TF-IDF | 使用GPU上的CUDA计算和比较距离。 | Wikipedia | F1-Macro | 仅适用于分层数据集并检索一些相关文档 |
Boosting | S. Bloehdorn et al. |
| 具有语义特征的ADaboost | BOW | 集成学习算法 | Reuters-21578 | F1-Macro and F1-Micro | 计算复杂性和可解释性损失 |
Logistic Regression | A. Genkin et al. | Bayesian Logistic Regression | 高维数据的逻辑回归分析 | TF-IDF | 它基于高斯先验和岭逻辑回归 | RCV1-v2 | F1-Macro | 预测结果基于一组自变量 |
Naïve Bayes | Kim, S.B et al. | Weight Enhancing Method | 文本分类的多元泊松模型 | Weights words | 按文档项频率标准化以估计泊松参数 | Reuters-21578 | F1-Macro | 这种方法对数据分布的形状作出了强有力的假设。
|
SVM and KNN | K. Chen et al. | Inverse Gravity Moment | Introduced TFIGM (term frequency & inverse gravity moment) | TF-IDF and TFIGM | 结合一个统计模型来精确测量一个词的分类识别能力。 | 20 Newsgroups and Reuters-21578 | F1-Macro | 未能捕捉到一词多义,语义和句子仍未解决
|
Support Vector Machines | H. Lodhi et al. | 字符串子序列内核 | Use of a special kernel | 使用tf-idf的相似性 | 内核是特征空间中由长度k的所有子序列生成的内积。 | Reuters-21578 | F1-Macro | 结果缺乏透明度 |
Conditional Random Field (CRF) | T. Chen et al. | BiLSTM-CRF | 应用基于神经网络的序列模型,根据句子中出现的目标数目,将固定句分为三类
| Word embedding | 通过句子类型分类改进句子层次情感分析 | Customer reviews | Accuracy | 计算复杂度高,该算法不适用于看不见的单词。 |
Model | Author(s) | Architecture | Novelty(创新) | Feature Extraction | Details | Corpus | Validation Measure | Limitation |
Deep Learning | Z. Yang et al. | Hierarchical Attention Networks | 它有一个层次结构 | Word embedding | 单词和句子两级注意机制 | Yelp, IMDB review, and Amazon review | Accuracy | 仅适用于文档级别 |
Deep Learning | J. Chen et al. | Deep Neural Networks | 使用二维TF-IDF特征的卷积神经网络(CNN) | 2D TF-IDF | 语言攻击性检测任务的新解决方案 | comments | F1-Macro and F1-Micro | 数据依赖以设计模型架构 |
Deep Learning | M. Jiang et al. | Deep Belief Network | 基于深度信念网络和softmax回归的混合文本分类模型。
| DBN | DBN完成了特征学习,以解决高维和稀疏矩阵问题,并使用softmax回归对文本进行分类 | Reuters-21578 and 20-Newsgroup | Error-rate | 计算上很昂贵,并且模型的可解释性仍然是该模型的问题
|
Deep Learning | X. Zhang et al. | CNN | 用于文本分类的字符级卷积网络(ConvNets)
| Encoded Characters | 字符级别的ConvNet包含6个卷积层和3个全连接层 | Yelp, Amazon review and Yahoo! Answers data set | Relative errors | 该模型仅用于发现其输入的位置不变特征 |
Deep Learning | K. Kowsari | 集成深度学习算法(CNN,DNN和RNN) | 解决寻找最佳的深度学习结构和架构的问题 | TF-IDF and GloVe | 随机多模型深度学习(RDML) | IMDB review, Reuters-21578, 20NewsGroup, and WOS | Accuracy | 计算上很贵 |
Deep Learning | K. Kowsari | Hierarchical structure | 利用大量的深入学习体系结构,在文档层次结构的各个级别提供专门的理解。 | TF-IDF and GloVe | 文本分类的层次深度学习(HDLTEX) | Web of science data set | Accuracy | 仅适用于分层数据集 |