文本分类算法 python 文本分类算法是什么

转载

mob64ca14017c37 2024-01-02 22:04:50

文章标签 文本分类算法 python 人工智能自然语言处理深度学习机器学习 文章分类 Python 后端开发

本文对常用文本分类算法进行了比较，第一部分包括Rocchio算法，boosting，bagging,，逻辑回归，朴素贝叶斯分类器，k最近邻和支持向量机。另外还包括决策树、条件随机场、随机森林和深度学习算法。
第二部分将文本分类技术与标准进行了比较：体系结构、作者、模型、新颖性、特征提取、细节、语料库、验证措施和每种技术的局限性。每个文本分类技术（系统）都包含一个模型，该模型是分类器算法，还需要一个特征提取技术，即将文本或文档数据集转换为数字数据。还列出了用于评估系统的验证措施。

文章目录

文本分类算法
文本分类技术与标准

文本分类算法

Model	Advantages	Pitfall
Rocchio Algorithm	•易于实施 •计算成本非常低 •相关性反馈机制（将文档排序为不相关文档的好处）	•用户只能检索一些相关文档 •Rocchio经常将多模态的类型错误分类 •该技术不是很可靠 •该算法中的线性组合不适用于多类数据集
Boosting and Bagging	•提高稳定性和准确性（利用集成学习，在多个弱学习者中优于单个强学习者） •减少方差，有助于避免过度拟合问题	•计算复杂性 •可解释性损失（如果模型数量高，则很难理解模型） •需要仔细调整不同的超参数
Logistic Regressio	•易于实现 •不需要太多计算资源 •不需要缩放输入功能（预处理） •不需要任何调整	•它不能解决非线性问题 •预测要求每个数据点都是独立的 •试图根据一组独立变量预测结果
Naïve Bayes Classifier	•它与文本数据很好地配合使用 •易于实现 •与其他算法相比速度更快	•关于数据分布形状的强有力假设 •受数据稀缺性的限制，对于特征空间中的任何可能值，必须由专职人员估计似然值
K-Nearest Neighbor	•对文本数据集有效 •非参数化 •考虑到文本或文档的更多本地特性 •自然处理多类数据集	•此模型的计算非常昂贵 •难以找到k的最优值 •对于大型搜索问题的约束条件，无法找到最近的邻居 •对于文本数据集很难找到有意义的距离函数
Support Vector Machine (SVM)	•支持向量机可以建模非线性决策边界 •线性分离时执行与逻辑回归类似的功能 •对过度拟合问题（尤其是高维空间导致的文本数据集）具有鲁棒性。	•由于大量维度（尤其是文本数据）导致结果缺乏透明度。 •选择一个有效的内核函数是困难的（易受过拟合/训练问题的影响，取决于内核） •内存复杂性

Model	Advantages	Pitfall
Decision Tree	•可以轻松处理定性（分类）特征 •与与特征轴平行的决策边界很好地工作 •决策树是用于学习和预测的非常快速的算法	•对角线决策边界问题 •容易过度拟合 •对数据中的小扰动非常敏感 •样本外预测问题
Conditional Random Field (CRF)	•它的特征设计是灵活的 •由于CRF计算全局最优输出节点的条件概率，它克服了标签偏差的缺点 •结合分类和图形建模的优点，这些优点结合了对多维数据进行紧凑建模的能力	•训练步骤的计算复杂度高 •Rhis算法不使用未知单词执行 •在线学习问题（当有新数据可用时，很难重新训练模型）
Random Forest	•与其他技术相比，决策树集合的训练速度非常快 •方差减少（相对于常规树） •不需要准备和预处理输入数据	•训练后创建预测的速度非常慢 •森林中的更多树木增加了预测步骤的时间复杂性 •不容易直观解释 •很容易发生过度拟合 •需要选择森林中的树木数量
Deep Learning	•特征设计灵活（减少了对特征工程的需求，这是机器学习实践中最耗时的部分之一） •可适应新问题的架构 •可处理复杂的输入输出映射 •可以很容易地处理在线学习（当新的数据可用时，可以很容易地重新培训模型） •并行处理能力（它可以同时执行多个作业）	•需要大量数据（如果您只有小样本文本数据，那么深度学习不可能比其他方法更好。 •培训的计算成本极高。 •模型的可解释性是深度学习最重要的问题（深度学习大部分时间是一个黑匣子） •寻找一个有效的架构和结构仍然是这种技术的主要挑战。

文本分类技术与标准

Model	Author(s)	Architecture	Novelty（创新）	Feature Extraction	Details	Corpus	Validation Measure	Limitation
Rocchio Algorithm	B.J. Sowmya et al.	Hierarchical Rocchio	Classificationon hierarchical data	TF-IDF	使用GPU上的CUDA计算和比较距离。	Wikipedia	F1-Macro	仅适用于分层数据集并检索一些相关文档
Boosting	S. Bloehdorn et al.		具有语义特征的ADaboost	BOW	集成学习算法	Reuters-21578	F1-Macro and F1-Micro	计算复杂性和可解释性损失
Logistic Regression	A. Genkin et al.	Bayesian Logistic Regression	高维数据的逻辑回归分析	TF-IDF	它基于高斯先验和岭逻辑回归	RCV1-v2	F1-Macro	预测结果基于一组自变量
Naïve Bayes	Kim, S.B et al.	Weight Enhancing Method	文本分类的多元泊松模型	Weights words	按文档项频率标准化以估计泊松参数	Reuters-21578	F1-Macro	这种方法对数据分布的形状作出了强有力的假设。
SVM and KNN	K. Chen et al.	Inverse Gravity Moment	Introduced TFIGM (term frequency & inverse gravity moment)	TF-IDF and TFIGM	结合一个统计模型来精确测量一个词的分类识别能力。	20 Newsgroups and Reuters-21578	F1-Macro	未能捕捉到一词多义，语义和句子仍未解决
Support Vector Machines	H. Lodhi et al.	字符串子序列内核	Use of a special kernel	使用tf-idf的相似性	内核是特征空间中由长度k的所有子序列生成的内积。	Reuters-21578	F1-Macro	结果缺乏透明度
Conditional Random Field (CRF)	T. Chen et al.	BiLSTM-CRF	应用基于神经网络的序列模型，根据句子中出现的目标数目，将固定句分为三类	Word embedding	通过句子类型分类改进句子层次情感分析	Customer reviews	Accuracy	计算复杂度高，该算法不适用于看不见的单词。

Model	Author(s)	Architecture	Novelty（创新）	Feature Extraction	Details	Corpus	Validation Measure	Limitation
Deep Learning	Z. Yang et al.	Hierarchical Attention Networks	它有一个层次结构	Word embedding	单词和句子两级注意机制	Yelp, IMDB review, and Amazon review	Accuracy	仅适用于文档级别
Deep Learning	J. Chen et al.	Deep Neural Networks	使用二维TF-IDF特征的卷积神经网络（CNN）	2D TF-IDF	语言攻击性检测任务的新解决方案	Twitter comments	F1-Macro and F1-Micro	数据依赖以设计模型架构
Deep Learning	M. Jiang et al.	Deep Belief Network	基于深度信念网络和softmax回归的混合文本分类模型。	DBN	DBN完成了特征学习，以解决高维和稀疏矩阵问题，并使用softmax回归对文本进行分类	Reuters-21578 and 20-Newsgroup	Error-rate	计算上很昂贵，并且模型的可解释性仍然是该模型的问题
Deep Learning	X. Zhang et al.	CNN	用于文本分类的字符级卷积网络（ConvNets）	Encoded Characters	字符级别的ConvNet包含6个卷积层和3个全连接层	Yelp, Amazon review and Yahoo! Answers data set	Relative errors	该模型仅用于发现其输入的位置不变特征
Deep Learning	K. Kowsari	集成深度学习算法（CNN，DNN和RNN）	解决寻找最佳的深度学习结构和架构的问题	TF-IDF and GloVe	随机多模型深度学习（RDML）	IMDB review, Reuters-21578, 20NewsGroup, and WOS	Accuracy	计算上很贵
Deep Learning	K. Kowsari	Hierarchical structure	利用大量的深入学习体系结构，在文档层次结构的各个级别提供专门的理解。	TF-IDF and GloVe	文本分类的层次深度学习（HDLTEX）	Web of science data set	Accuracy	仅适用于分层数据集