短文本关键短语/关键词提取

背景:短文本具有内容简短、表达灵活、主题风格各异等特点,从中提取关键短语具有挑战性

1  类目 标签 关键短语 关键词的区别

类目(category) 是预先定义好的,具有树形的层次结构,抽象的概括某类事物,强调共性,往往具有排他性。

标签tag 粒度比类目更加细,用于刻画一小批群体的特征,不一定有层次结构,一条内容往往可以有多个标签。

关键词(keyword)更侧重于某一具体内容本身表达的意义,往往是内容的主题。

关键短语(keyphrase)是关键词组成的短语,短语的语义更加丰富,能够更加全面的概括内容主题。



短文本lda 短文本关键词提取_权重

2 可能的特征

特征选取往往对提取效果起到关键的作用。

统计特征    tf idf  

位置特征    首次出现的位置、是否在title中、词的跨度(第一次和最后一次出现的间隔宽度)

语言特征    词性、停用词、形态特征(后缀、首字母缩写)、词干特征、偏旁、语义  

语境特征   上下文特征

先验知识    比如 核心商品词、地名、书名、电影名等。

3 方法概览

无监督方法

  • 统计   根据2提到的特征,通过分析设置权重和阈值进行排序,选出关键短语
  • 基于图的思想   构造短语和短语之间的联通权重图,根据pagerank的思路得到短语的排序,选出关键短语  

短文本lda 短文本关键词提取_短文本lda_02

  •  基于文本滑动窗口的 textrank Mihalcea and Tarau (2004) )  
  • 基于term frequencies、tfidf、co-occurrences等算权重的 SGrank Papagiannopoulou and Tsoumakas (2015)
  • 基于文档相似的 singlerank Wan and Xiao, 2008
  • 根据主题相似 topic pageranke Liu et al., 2013

监督方法

  • 统计机器学习分类方法     根据3提到的特征,用统计机器学习学习各个特征的权重值,为每个短语做是否是关键短语的二分类。比如比较古老的 KEA KEA (Witten et al.,也可以用gbdt等其他分类方法。
  • learn  to rank     LTR 目标是学习一个排序模型,使得排在前面的都是关键短语。Ranking SVM Jiang et al .MIKE Zhang et al., 2017.
  • 翻译的思想     可以把文本看作源语言,把关键短语看作目标语言,用encoder-decoder思路做提取       Deep Keyphrase Generation Meng 2017
  • 序列标注的思路     把每个字做序列标注分类,类似实体识别的思路,实体识别提取的是实体词,这里提取的是关键短语。是否是关键短语除了短语本身的特征外,往往上下文的特征更为重要,比如主语宾语成分是关键短语的概率大于其他成分。    CRF - Incorporating Expert Knowledge into Keyphrase Extraction Gollapalli et al.  2017     Bi-LSTM-CRF Rabah et al  2019

4 离线评估方法

1 关键短语的F1 score.

2 排名质量衡量MAP MRR

3 binary preference measure(bpref)

 4 Average of Correctly Extracted Keyphrases - (ACEK)

5 我们尝试的方法

无监督方法

在最开始无训练语料的情况下,我们把ugc文本切词后,每个词构造相应的特征做规则排序(属于关键词提取)。这里的特征包括词本身的特征,词所在的文本内容特征,还包括内容发表者的特征。


词的内容中首次出现位置
词性(是否是名词形容词等)
停用词(直接去掉停用词)
tf-idf值
text-rank值
词是否在用户设置的内容话题中(##里面的内容)
词的长度
ugc文本长度
词和ugc文本的语义相似度.
词的簇和内容中其他词的簇分布情况(根据词embedding做聚类,得到每个词的簇类别)
词是否在feed发表者的简介描述中
词和发表者简介的语义相似度
等等...