通过nlp 从现有数据中获取 nlp用例

转载

mob64ca14048514 2023-09-26 23:13:45

文章标签 通过nlp 从现有数据中获取情感分析权重深度学习 文章分类 NLP 人工智能

情感分析

基于情感词典的传统算法

基于深度学习的算法

情感分析

情感分析是自然语言处理中常见的场景，对于指导产品更新迭代具有关键性的作用。

通过情感分析，可以挖掘产品在各个维度的优劣，从而明确如何改进产品。比如对外卖评价，可以分析菜品口味、送达时间、送餐态度、菜品丰富度等多个维度的用户情感指数，从而从各个维度上改进外卖服务。

情感分析可以采用基于情感词典的传统方法，也可以采用基于深度学习的方法。

情感分析也称为意见挖掘（Option Mining），是自然语言处理（NLP）的一个领域，它构建的系统，用于在文本中识别和提取观点。通常，除了识别观点，这些系统还提取描述的特征，例如：

极性：发言者表达积极或消极的意见；
主题：正在谈论的事情；
意见持有人：表达意见的个人或实体

目前，情感分析是一个很有兴趣的话题，因为它有许多实际应用。由于互联网公司公开可用的信息不断增长，在评论网站，论坛，博客和社交媒体中，可以获得大量表达意见的文本。

在情感分析的帮助下，这种非结构化信心可以自动转化为，数据化结构，关于产品，服务，品牌或人们可以表达意见的其他主题。这些数据对于商业应用非常有用，例如营销分析，公馆分析，产品评论，网络发起人评分，产品反馈和客户服务。

情感分析可以用于不同级别的范围：

文本级别：通过完整文档或段落来获取情绪；
句子级别：获得单句的情绪；
子句级别：获得字句子中，表达的情感。

情感分析的优点

可扩展性

如成千上万的推文，用户对话或用户评论等数据量比较大的情况下，情感分析能够以有效且低成本的方式大规模处理数据。

实时分析

我们可以使用情感分析来识别关键信息，以便在特定情境中实施提供态势感知。

一致的标准

人类没有观察到评估一段文字感情的清洗标准。锯骨机，在判断特定文本的情感时，不同的人仅仅在60~65%的情况下统一。这是一项主管任务，伸手个人经理，思想和信仰的影响。通过使用集中情感分析系统，公司可以对所有数据应用相同的标准，这有助于减少错误并提高数据一致性。

基于情感词典的传统算法

基于情感词典的方法，先对文本进行分词或停用词处理等预处理，再利用先构建好的情感词典，对文本进行字符串匹配，从而挖掘正面和负面信息。

通过nlp 从现有数据中获取 nlp用例_通过nlp 从现有数据中获取

情感词典包含正面词语词典、负面词语词典、否定词语词典、程度副词词典等四部分。

通过nlp 从现有数据中获取 nlp用例_深度学习_02

词典包含两部分，词语和权重。

通过nlp 从现有数据中获取 nlp用例_情感分析_03

基于词典的文本匹配算法需要逐个遍历分次后的语句中的词语，如果词语命中词典，则进行相应权重的处理。正面词权重为加法，负面词权重为减法，否定词权重取相反数，程度副词权重和它修饰的词语权重相乘。利用最终输出的权重值，就可以区分是正面、负面还是中性情感了。

通过nlp 从现有数据中获取 nlp用例_通过nlp 从现有数据中获取_04

基于情感词典的情感分类，简单易行，而且通用性也能够得到保障，但其不足在于：

1、精度不高。语言是一个高度复杂的东西，采用简单的现行叠加显然会造成很大1精度损失。词语权重同样不是一成不变的，而且也难以做到准确。

2、新词发现。对于新的情感词，比如给力，666等等，词典不一定能够覆盖；

3、词典重构难，基于词典的情感分类，核心在于情感词典。而情感词典的构建需要有较强的背景知识，需要对语言有比较深刻的理解，在分析外语方面会有很大限制。

基于深度学习的算法

近年来，深度学习在NLP领域内也是遍地开花。基于深度学习的情感分析，具有精度高，通用性强，不需要情感词典等优点。

基于深度学习的情感分类，首先对语句进行分词、停用词、简繁转换等预处理，然后进行词向量编码，然后利用LSTM或者GRU等RNN网络进行特征提取，最后通过全连接层和softmax输出每个分类的概率，从而得到情感分类。

通过nlp 从现有数据中获取 nlp用例_权重_05

基于深度学习的情感分析难点也很多，比如：

1、语句长度太长。很多用户评论都特别长，分词完后有几百个词语。一般解决方法有进行停用词护理，无关词处理等，从而所建文本长度。或者对文本进行摘要，抽离语句主要成分。

2、新词和口语词特别多。用户评价语句不像新闻那样规整，新词和口语化的词语特别多。这个问题给分词和词向量带来了很大难度。一般解决方法是分词方面，建立用户词典，从而调高分词准确度。词向量方面，对新词进行增量训练，从而提高新词覆盖率。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：两曲线相似程度 Python 两条曲线相似度

下一篇：五重交叉验证的机器学习模型如何应用于测试集多重交叉验证

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯