爱数科(iDataScience)平台是一款数据科学科研和教学一体化平台,集成数十行业数千数据集、科研案例模板。帮助科研人员快速使用大数据和人工智能技术开展研究。支持高校开展大数据通识课程教学。帮助非专业人员进行数据分析和生成数据分析报告。使用拖拽式工具在线运行本案例请登录


本案例主要用于数据可视化中词云图组件的操作和运用。


爱数科案例 | 数据可视化——词云图_数据集


1. 金融新闻情感分析数据集

首先,读取数据集 金融新闻情感分析数据集 ,该数据集从零售投资者的角度包含了金融新闻头条的观点。数据集包含两列,情感标签和新闻标题。

爱数科案例 | 数据可视化——词云图_数据_02


2. 查看唯一值及数量

用查看唯一值及数量组件查看labels字段的取值情况。

爱数科案例 | 数据可视化——词云图_数据_03

结果显示情感标签包含消极的,中立的和积极的三种。

3. 英文停用词表数据集

停用词在任何人类语言中都是大量存在的,通过删除这些词,我们从文本中删除了底层信息,以便更加关注重要的信息。所以在画词云图之前,有必要去除数据集中的停用词,以便词云图能够展示更加重要的信息。在去除停用词之前,首先要选取相关停用词表数据集,这里选取 英文停用词表数据集。该数据集包含891个英文停用词,可用于英文语料预处理。

爱数科案例 | 数据可视化——词云图_数据集_04


4. 去除停用词

用去除停用词组件去除数据集中的停用词。该组件存在两个输入桩,左边的输入桩连接需要去除停用词的数据对象,右边的输入桩连接停用词表。在这里左边连接 金融新闻情感分析数据集,右边连接英文停用词表数据集,需要去停用词的列选择title。接下来的操作均在去除停用词后的数据集上进行。

爱数科案例 | 数据可视化——词云图_词云_05


5. 词云图

绘制全部新闻标题的词云图。 在面板参数中,选择列选择title,显示词数量默认为200。

爱数科案例 | 数据可视化——词云图_数据集_06

词云,又称文字云,是一种视觉化文本数据的可视化方法,由词汇组成类似云的彩色图形,用于展示大量文本数据,显示主要的关键词(高频词)。这里的词云图显示,出现频率最高的词是TheEURcompany等。

6. 筛选neutral情感标签

运用数据筛选组件按情感标签分类绘制词云图。通过上面查看labels字段的唯一值及数量可知,情感标签有消极的,中立的和积极的三个不同分类。首先挑选出情感分类为中立的数据。在面板参数中,行筛选不作处理,列条件筛选,列名称选择labels,关系符选择=,值输入neutral,列选择筛选,选择列为全部。

爱数科案例 | 数据可视化——词云图_数据集_07

结果已经筛选出labelsneutral的全部数据。

7. neutral类词云图

绘制neutral类词云图。在以上筛选数据的基础上,绘制词云图,选择列为title,显示词数量输入150

爱数科案例 | 数据可视化——词云图_词云_08

词云图显示的词汇数量明显减少,出现频率最高的词汇有ThecompanyFinland等。

8. 筛选positive情感标签

然后挑选出情感分类为积极的数据。在面板参数中,行筛选不作处理,列条件筛选,列名称选择labels,关系符选择=,值输入positive,列选择筛选,选择列为全部。

爱数科案例 | 数据可视化——词云图_数据_09

结果已经筛选出labelspositive的全部数据。

9. positive类词云图

绘制positive类词云图。在以上筛选数据的基础上,绘制词云图,选择列为title,显示词数量输入100

爱数科案例 | 数据可视化——词云图_词云_10

词云图显示的词汇数量进一步减少。词云图显示出现频率最高的词汇有EURTheFinnish等。

10. 筛选negative情感标签

最后挑选出情感分类为消极的数据。在面板参数中,行筛选不作处理,列条件筛选,列名称选择labels,关系符选择=,值输入negative,列选择筛选,选择列为全部。

爱数科案例 | 数据可视化——词云图_数据_11

结果已经筛选出labelsnegative的全部数据。

11. negative类词云图

绘制negative类词云图。在以上筛选数据的基础上,绘制词云图,选择列为title,显示词数量输入50。

爱数科案例 | 数据可视化——词云图_数据_12

词云图所显示的词汇数量只有五十个。词云图显示出现频率最高的词汇有​EUR​​、​mn​​、​profit等。


爱数科(iDataScience)平台是一款数据科学科研和教学一体化平台,集成数十行业数千数据集、科研案例模板。帮助科研人员快速使用大数据和人工智能技术开展研究。支持高校开展大数据通识课程教学。帮助非专业人员进行数据分析和生成数据分析报告。