爱数科案例 | 数据可视化——词云图

转载

wx626f487c99133 2022-10-17 14:47:37

爱数科（iDataScience）平台是一款数据科学科研和教学一体化平台，集成数十行业数千数据集、科研案例模板。帮助科研人员快速使用大数据和人工智能技术开展研究。支持高校开展大数据通识课程教学。帮助非专业人员进行数据分析和生成数据分析报告。使用拖拽式工具在线运行本案例请登录

本案例主要用于数据可视化中词云图组件的操作和运用。

爱数科案例 | 数据可视化——词云图_数据集

1. 金融新闻情感分析数据集

首先，读取数据集 金融新闻情感分析数据集 ，该数据集从零售投资者的角度包含了金融新闻头条的观点。数据集包含两列，情感标签和新闻标题。

爱数科案例 | 数据可视化——词云图_数据_02

2. 查看唯一值及数量

用查看唯一值及数量组件查看labels字段的取值情况。

爱数科案例 | 数据可视化——词云图_数据_03

结果显示情感标签包含消极的，中立的和积极的三种。

3. 英文停用词表数据集

停用词在任何人类语言中都是大量存在的，通过删除这些词，我们从文本中删除了底层信息，以便更加关注重要的信息。所以在画词云图之前，有必要去除数据集中的停用词，以便词云图能够展示更加重要的信息。在去除停用词之前，首先要选取相关停用词表数据集，这里选取 英文停用词表数据集。该数据集包含891个英文停用词，可用于英文语料预处理。

爱数科案例 | 数据可视化——词云图_数据集_04

4. 去除停用词

用去除停用词组件去除数据集中的停用词。该组件存在两个输入桩，左边的输入桩连接需要去除停用词的数据对象，右边的输入桩连接停用词表。在这里左边连接 金融新闻情感分析数据集，右边连接英文停用词表数据集，需要去停用词的列选择title。接下来的操作均在去除停用词后的数据集上进行。

爱数科案例 | 数据可视化——词云图_词云_05

5. 词云图

绘制全部新闻标题的词云图。在面板参数中，选择列选择title，显示词数量默认为200。

爱数科案例 | 数据可视化——词云图_数据集_06

词云，又称文字云，是一种视觉化文本数据的可视化方法，由词汇组成类似云的彩色图形，用于展示大量文本数据，显示主要的关键词（高频词）。这里的词云图显示，出现频率最高的词是The、EUR及company等。

6. 筛选neutral情感标签

运用数据筛选组件按情感标签分类绘制词云图。通过上面查看labels字段的唯一值及数量可知，情感标签有消极的，中立的和积极的三个不同分类。首先挑选出情感分类为中立的数据。在面板参数中，行筛选不作处理，列条件筛选，列名称选择labels，关系符选择=，值输入neutral，列选择筛选，选择列为全部。

爱数科案例 | 数据可视化——词云图_数据集_07

结果已经筛选出labels为neutral的全部数据。

7. neutral类词云图

绘制neutral类词云图。在以上筛选数据的基础上，绘制词云图，选择列为title，显示词数量输入150。

爱数科案例 | 数据可视化——词云图_词云_08

词云图显示的词汇数量明显减少，出现频率最高的词汇有The、company、Finland等。

8. 筛选positive情感标签

然后挑选出情感分类为积极的数据。在面板参数中，行筛选不作处理，列条件筛选，列名称选择labels，关系符选择=，值输入positive，列选择筛选，选择列为全部。

爱数科案例 | 数据可视化——词云图_数据_09

结果已经筛选出labels为positive的全部数据。

9. positive类词云图

绘制positive类词云图。在以上筛选数据的基础上，绘制词云图，选择列为title，显示词数量输入100。

爱数科案例 | 数据可视化——词云图_词云_10

词云图显示的词汇数量进一步减少。词云图显示出现频率最高的词汇有EUR、The、Finnish等。

10. 筛选negative情感标签

最后挑选出情感分类为消极的数据。在面板参数中，行筛选不作处理，列条件筛选，列名称选择labels，关系符选择=，值输入negative，列选择筛选，选择列为全部。

爱数科案例 | 数据可视化——词云图_数据_11

结果已经筛选出labels为negative的全部数据。

11. negative类词云图

绘制negative类词云图。在以上筛选数据的基础上，绘制词云图，选择列为title，显示词数量输入50。

爱数科案例 | 数据可视化——词云图_数据_12

词云图所显示的词汇数量只有五十个。词云图显示出现频率最高的词汇有EUR、mn、profit等。

爱数科（iDataScience）平台是一款数据科学科研和教学一体化平台，集成数十行业数千数据集、科研案例模板。帮助科研人员快速使用大数据和人工智能技术开展研究。支持高校开展大数据通识课程教学。帮助非专业人员进行数据分析和生成数据分析报告。

上一篇：爱数课实验 | 利用机器学习模型预测美国州际公路交通量

下一篇：爱数科案例 | 数据可视化——雷达图和箱线图

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯