题目
比赛网址:https://tianchi.aliyun.com/competition/entrance/531810/information
题目求解的是什么
将一篇文章归入到具体的类别中,一共有
这是一个文本分类任务,将文章分门别类的归入到具体的类别中;如果只是把文章归为一类却没有具体的类别(不关心类别),那就是文本聚类。
文章的具体类别,也称为【标签】。每篇文章通常只有一个类别,如果一篇文章有多个类别,此时问题就是多标签任务。
已知什么
数据集下载:
文本分类是一个监督学习任务,除了数据外,还得有标准答案。
要满足哪些条件
不得不说,评测标准。
评测标准是准确率评测,也就是问,你的准确率()是多少。
当预测与答案的数量相等时,准确率即系统做出正确判断的次数除以总的测试次数。
衡量分类器的准确程度,通常有 :
- :精确率,简称
- :召回率,简称
- :精确率、召回率的调和平均值,简称
这些名词都属于预测,要理解他们的计算方法,得先理解混淆矩阵。
P | N | |
P | TP | FP |
N | FN | TN |
纵坐标为预测结果,横坐标为标准答案,一共有
- :预测是 ,答案是 ;
- :预测是 ,答案是 ;
- :预测是 ,答案是 ;
- :预测是 ,答案是 ;
只要混淆矩阵确立了,
通常 越高,
所以,我们需要一个综合性的指标,比如精确率、召回率的调和平均值 。
解题思路
本质是一个文本分类问题,需要根据每句的字符进行分类。
- 但给出的数据是匿名化的,不能直接使用中文分词等操作,需要对匿名字符进行建模,进而完成文本分类的过程;
- 由于文本数据是一种典型的非结构化数据,因此可能涉及到
特征提取
和分类模型
两个部分。
主要的思路:
直接使用 TF-IDF 对文本提取特征,并使用分类器进行分类。在分类器的选择上,可以使用机器学习的 、 或 ,也可以使用余弦距离。
FastText是入门款的词向量,利用 提供的 工具,可以快速构建出分类器。
是进阶款的词向量,并通过构建深度学习分类完成分类。深度学习分类的网络结构可以选择 、 或 。
是高配款的词向量,具有强大的建模学习能力。
以第一种举例,先把文字的新闻变成一组可计算的数字,然后再设计一个算法来算出任意两篇新闻的相似性
利用 TF-IDF 将某个新闻转换成新闻的特征向量,每一个维度的大小代表每个词对这篇新闻的贡献
向量的夹角是衡量两个向量相似程度的度量,因此可以利用两个向量的夹角来判断对应的新闻主题的相似程度。
有关于向量的使用方法,请猛击:《向量实验:相似度算法》(实验有向量部分的新闻分类自动化、评估用户消费能力、人群聚类、简历筛选自动化、论文查重)