目录

情感分析

基于情感词典的传统算法

基于深度学习的算法


情感分析

情感分析是自然语言处理中常见的场景,对于指导产品更新迭代具有关键性的作用。

通过情感分析,可以挖掘产品在各个维度的优劣,从而明确如何改进产品。比如对外卖评价,可以分析菜品口味、送达时间、送餐态度、菜品丰富度等多个维度的用户情感指数,从而从各个维度上改进外卖服务。

情感分析可以采用基于情感词典的传统方法,也可以采用基于深度学习的方法。

情感分析也称为意见挖掘(Option Mining),是自然语言处理(NLP)的一个领域,它构建的系统,用于在文本中识别和提取观点。通常,除了识别观点,这些系统还提取描述的特征,例如:

  • 极性:发言者表达积极或消极的意见;
  • 主题:正在谈论的事情;
  • 意见持有人:表达意见的个人或实体

目前,情感分析是一个很有兴趣的话题,因为它有许多实际应用。由于互联网公司公开可用的信息不断增长,在评论网站,论坛,博客和社交媒体中,可以获得大量表达意见的文本。

在情感分析的帮助下,这种非结构化信心可以自动转化为,数据化结构,关于产品,服务,品牌或人们可以表达意见的其他主题。这些数据对于商业应用非常有用,例如营销分析,公馆分析,产品评论,网络发起人评分,产品反馈和客户服务。

情感分析可以用于不同级别的范围:

  • 文本级别:通过完整文档或段落来获取情绪;
  • 句子级别:获得单句的情绪;
  • 子句级别:获得字句子中,表达的情感。

情感分析的优点

  • 可扩展性

如成千上万的推文,用户对话或用户评论等数据量比较大的情况下,情感分析能够以有效且低成本的方式大规模处理数据。

  • 实时分析

我们可以使用情感分析来识别关键信息,以便在特定情境中实施提供态势感知。

  • 一致的标准

人类没有观察到评估一段文字感情的清洗标准。锯骨机,在判断特定文本的情感时,不同的人仅仅在60~65%的情况下统一。这是一项主管任务,伸手个人经理,思想和信仰的影响。通过使用集中情感分析系统,公司可以对所有数据应用相同的标准,这有助于减少错误并提高数据一致性。

基于情感词典的传统算法

基于情感词典的方法,先对文本进行分词或停用词处理等预处理,再利用先构建好的情感词典,对文本进行字符串匹配,从而挖掘正面和负面信息。

通过nlp 从现有数据中获取 nlp用例_通过nlp 从现有数据中获取

情感词典包含正面词语词典、负面词语词典、否定词语词典、程度副词词典等四部分。

通过nlp 从现有数据中获取 nlp用例_深度学习_02

词典包含两部分,词语和权重。

通过nlp 从现有数据中获取 nlp用例_情感分析_03

 基于词典的文本匹配算法需要逐个遍历分次后的语句中的词语,如果词语命中词典,则进行相应权重的处理。正面词权重为加法,负面词权重为减法,否定词权重取相反数,程度副词权重和它修饰的词语权重相乘。利用最终输出的权重值,就可以区分是正面、负面还是中性情感了。

通过nlp 从现有数据中获取 nlp用例_通过nlp 从现有数据中获取_04

基于情感词典的情感分类,简单易行,而且通用性也能够得到保障,但其不足在于:

1、精度不高。语言是一个高度复杂的东西,采用简单的现行叠加显然会造成很大1精度损失。词语权重同样不是一成不变的,而且也难以做到准确。

2、新词发现。对于新的情感词,比如给力,666等等,词典不一定能够覆盖;

3、词典重构难,基于词典的情感分类,核心在于情感词典。而情感词典的构建需要有较强的背景知识,需要对语言有比较深刻的理解,在分析外语方面会有很大限制。 

基于深度学习的算法

近年来,深度学习在NLP领域内也是遍地开花。基于深度学习的情感分析,具有精度高,通用性强,不需要情感词典等优点。

基于深度学习的情感分类,首先对语句进行分词、停用词、简繁转换等预处理,然后进行词向量编码,然后利用LSTM或者GRU等RNN网络进行特征提取,最后通过全连接层和softmax输出每个分类的概率,从而得到情感分类。

通过nlp 从现有数据中获取 nlp用例_权重_05

基于深度学习的情感分析难点也很多,比如:

1、语句长度太长。很多用户评论都特别长,分词完后有几百个词语。一般解决方法有进行停用词护理,无关词处理等,从而所建文本长度。或者对文本进行摘要,抽离语句主要成分。

2、新词和口语词特别多。用户评价语句不像新闻那样规整,新词和口语化的词语特别多。这个问题给分词和词向量带来了很大难度。一般解决方法是分词方面,建立用户词典,从而调高分词准确度。词向量方面,对新词进行增量训练,从而提高新词覆盖率。