NLP以赛代练 Task 1:赛题理解_深度学习

题目

比赛网址:https://tianchi.aliyun.com/competition/entrance/531810/information  


题目求解的是什么

将一篇文章归入到具体的类别中,一共有 NLP以赛代练 Task 1:赛题理解_文本分类_02

这是一个文本分类任务,将文章分门别类的归入到具体的类别中;如果只是把文章归为一类却没有具体的类别(不关心类别),那就是文本聚类

文章的具体类别,也称为【标签】。每篇文章通常只有一个类别,如果一篇文章有多个类别,此时问题就是多标签任务
 


已知什么

数据集下载:

训练集数据

测试集A榜数据

测试集A榜提交样例

https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/train_set.csv.zip

https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/test_a.csv.zip

https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/test_a_sample_submit.csv

文本分类是一个监督学习任务,除了数据外,还得有标准答案。

 


要满足哪些条件

不得不说,评测标准。

评测标准是准确率评测,也就是问,你的准确率(NLP以赛代练 Task 1:赛题理解_文本分类_03)是多少。

当预测与答案的数量相等时,准确率即系统做出正确判断的次数除以总的测试次数。

NLP以赛代练 Task 1:赛题理解_文本分类_04

衡量分类器的准确程度,通常有 NLP以赛代练 Task 1:赛题理解_深度学习_05

  • NLP以赛代练 Task 1:赛题理解_文本分类_06:精确率,简称 NLP以赛代练 Task 1:赛题理解_机器学习_07
  • NLP以赛代练 Task 1:赛题理解_自然语言处理_08:召回率,简称 NLP以赛代练 Task 1:赛题理解_自然语言处理_09
  • NLP以赛代练 Task 1:赛题理解_文本分类_10:精确率、召回率的调和平均值,简称 NLP以赛代练 Task 1:赛题理解_文本分类_10

这些名词都属于预测,要理解他们的计算方法,得先理解混淆矩阵。

P

N

P

TP

FP

N

FN

TN

纵坐标为预测结果,横坐标为标准答案,一共有 NLP以赛代练 Task 1:赛题理解_机器学习_12

  • NLP以赛代练 Task 1:赛题理解_文本分类_13:预测是 NLP以赛代练 Task 1:赛题理解_机器学习_07,答案是 NLP以赛代练 Task 1:赛题理解_机器学习_07
  • NLP以赛代练 Task 1:赛题理解_文本分类_16:预测是 NLP以赛代练 Task 1:赛题理解_机器学习_07,答案是 NLP以赛代练 Task 1:赛题理解_机器学习_18;
  • NLP以赛代练 Task 1:赛题理解_深度学习_19:预测是 NLP以赛代练 Task 1:赛题理解_机器学习_18,答案是 NLP以赛代练 Task 1:赛题理解_机器学习_18
  • NLP以赛代练 Task 1:赛题理解_深度学习_22:预测是 NLP以赛代练 Task 1:赛题理解_机器学习_18,答案是 NLP以赛代练 Task 1:赛题理解_机器学习_07

只要混淆矩阵确立了,NLP以赛代练 Task 1:赛题理解_深度学习_05

  • NLP以赛代练 Task 1:赛题理解_机器学习_26
  • NLP以赛代练 Task 1:赛题理解_自然语言处理_27
  • NLP以赛代练 Task 1:赛题理解_机器学习_28

通常 NLP以赛代练 Task 1:赛题理解_自然语言处理_29 越高,NLP以赛代练 Task 1:赛题理解_文本分类_30

所以,我们需要一个综合性的指标,比如精确率、召回率的调和平均值 NLP以赛代练 Task 1:赛题理解_机器学习_31
 


解题思路

本质是一个文本分类问题,需要根据每句的字符进行分类。

  • 但给出的数据是匿名化的,不能直接使用中文分词等操作,需要对匿名字符进行建模,进而完成文本分类的过程;
  • 由于文本数据是一种典型的非结构化数据,因此可能涉及到特征提取分类模型两个部分。

主要的思路:

  • NLP以赛代练 Task 1:赛题理解_召回率_32
    直接使用 TF-IDF 对文本提取特征,并使用分类器进行分类。在分类器的选择上,可以使用机器学习的 NLP以赛代练 Task 1:赛题理解_自然语言处理_33NLP以赛代练 Task 1:赛题理解_召回率_34NLP以赛代练 Task 1:赛题理解_机器学习_35,也可以使用余弦距离。
     
  • NLP以赛代练 Task 1:赛题理解_文本分类_36
    FastText是入门款的词向量,利用 NLP以赛代练 Task 1:赛题理解_机器学习_37 提供的 NLP以赛代练 Task 1:赛题理解_文本分类_36 工具,可以快速构建出分类器。
     
  • NLP以赛代练 Task 1:赛题理解_自然语言处理_39
    NLP以赛代练 Task 1:赛题理解_自然语言处理_39是进阶款的词向量,并通过构建深度学习分类完成分类。深度学习分类的网络结构可以选择 NLP以赛代练 Task 1:赛题理解_机器学习_41NLP以赛代练 Task 1:赛题理解_深度学习_42NLP以赛代练 Task 1:赛题理解_自然语言处理_43
     
  • NLP以赛代练 Task 1:赛题理解_召回率_44
    NLP以赛代练 Task 1:赛题理解_文本分类_45 是高配款的词向量,具有强大的建模学习能力。
     

NLP以赛代练 Task 1:赛题理解_机器学习_46

以第一种举例,先把文字的新闻变成一组可计算的数字,然后再设计一个算法来算出任意两篇新闻的相似性

利用 TF-IDF 将某个新闻转换成新闻的特征向量,每一个维度的大小代表每个词对这篇新闻的贡献

向量的夹角是衡量两个向量相似程度的度量,因此可以利用两个向量的夹角来判断对应的新闻主题的相似程度。

有关于向量的使用方法,请猛击:《向量实验:相似度算法》(实验有向量部分的新闻分类自动化、评估用户消费能力、人群聚类、简历筛选自动化、论文查重)