爱数科(iDataScience)平台是一款数据科学科研和教学一体化平台,集成数十行业数千数据集、科研案例模板。帮助科研人员快速使用大数据和人工智能技术开展研究。支持高校开展大数据通识课程教学。帮助非专业人员进行数据分析和生成数据分析报告。使用拖拽式工具在线运行本案例请登录
本案例主要用于数据可视化中词云图组件的操作和运用。
1. 金融新闻情感分析数据集
首先,读取数据集 金融新闻情感分析数据集 ,该数据集从零售投资者的角度包含了金融新闻头条的观点。数据集包含两列,情感标签和新闻标题。
2. 查看唯一值及数量
用查看唯一值及数量组件查看labels
字段的取值情况。
结果显示情感标签包含消极的,中立的和积极的三种。
3. 英文停用词表数据集
停用词在任何人类语言中都是大量存在的,通过删除这些词,我们从文本中删除了底层信息,以便更加关注重要的信息。所以在画词云图之前,有必要去除数据集中的停用词,以便词云图能够展示更加重要的信息。在去除停用词之前,首先要选取相关停用词表数据集,这里选取 英文停用词表数据集。该数据集包含891个英文停用词,可用于英文语料预处理。
4. 去除停用词
用去除停用词组件去除数据集中的停用词。该组件存在两个输入桩,左边的输入桩连接需要去除停用词的数据对象,右边的输入桩连接停用词表。在这里左边连接 金融新闻情感分析数据集
,右边连接英文停用词表数据集
,需要去停用词的列选择title
。接下来的操作均在去除停用词后的数据集上进行。
5. 词云图
绘制全部新闻标题的词云图。 在面板参数中,选择列选择title
,显示词数量默认为200。
词云,又称文字云,是一种视觉化文本数据的可视化方法,由词汇组成类似云的彩色图形,用于展示大量文本数据,显示主要的关键词(高频词)。这里的词云图显示,出现频率最高的词是The
、EUR
及company
等。
6. 筛选neutral情感标签
运用数据筛选组件按情感标签分类绘制词云图。通过上面查看labels
字段的唯一值及数量可知,情感标签有消极的,中立的和积极的三个不同分类。首先挑选出情感分类为中立的数据。在面板参数中,行筛选不作处理,列条件筛选,列名称选择labels
,关系符选择=
,值输入neutral
,列选择筛选,选择列为全部。
结果已经筛选出labels
为neutral
的全部数据。
7. neutral类词云图
绘制neutral
类词云图。在以上筛选数据的基础上,绘制词云图,选择列为title
,显示词数量输入150
。
词云图显示的词汇数量明显减少,出现频率最高的词汇有The
、company
、Finland
等。
8. 筛选positive情感标签
然后挑选出情感分类为积极的数据。在面板参数中,行筛选不作处理,列条件筛选,列名称选择labels
,关系符选择=
,值输入positive
,列选择筛选,选择列为全部。
结果已经筛选出labels
为positive
的全部数据。
9. positive类词云图
绘制positive
类词云图。在以上筛选数据的基础上,绘制词云图,选择列为title
,显示词数量输入100
。
词云图显示的词汇数量进一步减少。词云图显示出现频率最高的词汇有EUR
、The
、Finnish
等。
10. 筛选negative情感标签
最后挑选出情感分类为消极的数据。在面板参数中,行筛选不作处理,列条件筛选,列名称选择labels
,关系符选择=
,值输入negative
,列选择筛选,选择列为全部。
结果已经筛选出labels
为negative
的全部数据。
11. negative类词云图
绘制negative
类词云图。在以上筛选数据的基础上,绘制词云图,选择列为title
,显示词数量输入50。
词云图所显示的词汇数量只有五十个。词云图显示出现频率最高的词汇有EUR
、mn
、profit
等。
爱数科(iDataScience)平台是一款数据科学科研和教学一体化平台,集成数十行业数千数据集、科研案例模板。帮助科研人员快速使用大数据和人工智能技术开展研究。支持高校开展大数据通识课程教学。帮助非专业人员进行数据分析和生成数据分析报告。