这篇文章属于是我个人的经验分享吧,本人也是小白,在学习使用的过程中发现对于VOSviewer使用方法的详细介绍,包括同义词合并的介绍,都偏少而且较分散。写这篇帖子是想把我的一些经验分享一下。

————>

(安装的话在官网就可以,需要java环境,按照VOSviewer的安装提示就可以完成,只需要java环境就可以!不要纠结在cmd中无法运行java!!!

首先,在数据库中下载好文件,设置好文件路径(方便查找)。支持的文件类型:Web of Science、Scopus、Dimensions、Lens、PubMed。

Step1.创建项目、导入文件

打开VOSviewer之后,点击左侧操作栏“File”标签下第一个按钮Create(创建)进入。 

关键词共现分析图 python_学习

然后选择第二个选项:根据书目数据创建地图(选择此选项可创建基于书目数据的合著、关键字共现、引文、书目耦合或共引文图。)【Next>】

关键词共现分析图 python_数据库_02

进去后选自第一个:从书目数据库文件读取数据(支持的文件类型:Web of Science、Scopus、Dimensions、Lens、PubMed。)Next>

关键词共现分析图 python_数据_03

选择自己文件所在的数据库导入事先下载好的文件(带有相信的题录信息)点击“···”选择文件(我用的是PubMed数据库的文件,PubMed-xxx-set.txt)等待文件读入。【Next>】

关键词共现分析图 python_数据分析_04

Step2.设置阶段

a.分析类型中,第一项是作者共现分析(共同创作),①中可以选择作者和机构(组织)(其他数据库有可以做国家共现的,比如Web of science)。②中可以选择是否对文献的作者数量限制(一般不做改动)

关键词共现分析图 python_关键词共现分析图 python_05

机构分析中,PubMed文件中的机构数据可能还没有统一。机构名称的格式可能不一致。会导致结果效果差,或者结果出现偏差。

(创作者共现的操作与关键词共现的操作区别不大,感兴趣的话可以参照一下。)

b.分析类型第二项是词语共现分析,可以选择全部关键词、作者关键词和MeSH关键字段。MeSH关键字段中会包含特征关键字段(如:aged,female,male等),我本人不是很喜欢用这个。选择全部关键词还是作者关键词,这个要根据分析的文献量选择,文献量多的话(千篇以上)我会选择作者关键词,具体的选择还是要看结果的效果。

关键词共现分析图 python_关键词共现分析图 python_06

Step3.合并同义词,删除项。(数据标准化)

 这个是设置的步骤,我单独拿出来讲是因为我发现大多的帖子并不会介绍如何做数据标准化。但是制作更精准的关键词共现网络,数据标准化还是有必要的。可以让共现网络的聚类更贴合实际发展。这里需要注意,如果是为了探究某一领域的发展特点,那么需要将检索关键词删除。

VOSviewer thesaurus file这个部分是用来合并同义词、删除指定词语的。(VOSviewer同义词库文件可用于合并作者名、组织名或关键字的不同变体。)在下载VOSviewer后附带的官方说明书中4.3节中专门有介绍。

关键词共现分析图 python_数据_07

 以下是操作步骤:

a.新建一个TXT文件。(为避免读取问题名字最好设置英文)

 b.第一行键入第一列列名:label然后按[Tab]键入第二列名:replace by。

label下面是被替换的词,replace by下面是替换后的词,如果想要删除指定项则replace by下面不键入任何词(但是[Tab]记得要键入)。

例如:我想把CNN、CNNs、convolutional neural networks、convolutional neural network统一为CNN,删除deep learning那么文件如图:

关键词共现分析图 python_关键词共现分析图 python_08

千万记得不要忘记键入【Tab】。有一些词汇因为本身太长了,键入【Tab】之后的间隔会不明显,但是不要质疑自己,细心一些。(这一步可能会挺麻烦,有点耗时间。但是我暂时并不知道其他的方法,而且这种东西就是根据不同的领域会有不同的关键词,没办法有模板吧···)(更新:有一些团队开发了一键合并同义词的软件,支持CNKI、Web of scince、CSSCI等数据库,可以自己查一下,我没有使用过所以在这里不做推荐)

c.将文件保存,记住文件路径。导入VOSviewer。【Next>】

Step4.设置关键字频次阈值

在①位置设置频次阈值,②是一共统计出来的关键词个数,③是在这个阈值下保留的关键词个数。这个结果是已经标准化之后的统计结果。

这个也是一个根据文献量和共现结果而定的值。结果有明显的分类,能看出来不同分支领域就可以(我一般会留90左右,高频的话三、四十个?)。我这里一共3381个关键词,我的设置是阈值为75,共有98个关键词符合标准。【Next>】

关键词共现分析图 python_数据库_09

 Step5.选择关键词数量

这步个人来看是不常用的 如果想要看高频关键词排名前多少的关键词共现网络可以在这步设置。

 对于这些关键词,VOSviewer将计算每一个与其他关键词共现链接的总强度。选中总链接强度大的关键字。【Next>】

关键词共现分析图 python_数据_10

 Step6.验证所选关键字

在这里可以看到被选中的所有关键字,如果有要取消的关键词可以在这步取消选中。(如果是PubMed数据有可能会出现带*号的关键词,我就遇到了这种情况,会另开一个帖子讨论的。更新:看到评论区有人也有这个问题,我使用最新的VOSviewer和原来的检索式下的PubMed文件重新做了一下,这次没有出现*号,源文件中的字段里是存在*号主题词加权的,所以考虑是VOSviewer版本旧的问题。我不是很确定,但是找不到其他合理的解释了···)

关键词共现分析图 python_数据库_11

【Finish】

(在这之后可能会出现一个对话框,大意是选中的这些关键词中只有部分有关联关系,最大的关联组中有xx个词,是否只显示最大的集团。选择【Yes】是只选择最大的集团显示,选择【No】是显示全部的关键词包括了没有关联的。)

关键词共现分析图 python_关键词共现分析图 python_12

 (说实话,我这个感觉效果一般,参数还需要再斟酌。)

至此,操作步骤结束

接下来简单介绍一下这三个视图

分别是网络视图,标签视图,密度视图。 

关键词共现分析图 python_数据分析_13

网络视图中,颜色代表分类,同一颜色是一个聚类类别的关键词(代表一个研究方向)。

关键词共现分析图 python_数据_14

标签视图中,默认的是:颜色代表时间,默认是蓝色和黄色,蓝色出现时间在前,黄色出现时间更新。就是这个关键词出现的平均时间。举个例子:Lung这个关键词,在2001年出现了一次,在2022年出现了4次,那么,Lung标注的时间为2017年9月。

点击右下角的图例可以设置算法,按照比例、去平均值等设置(这个我不是很明白,有需要的可以去查一下。)

关键词共现分析图 python_数据库_15

密度视图很好理解,颜色越接近黄色的地方,文献量越大。(一个点的邻域内的项数越大,其邻域项的权值越高,则该点的颜色越接近黄色。)

关键词共现分析图 python_数据_16

 每个视图的颜色都可以更改,在右侧的控制面板里最下面的colors中,具体操作参照说明书章节4.4 Cluster colors, overlay colors, and density colors files。

最后,简单说一下右侧的控制面板

三个视图的右侧控制面板中的内容有差异。相同的是①可视化和②标签,可以天界大小、选择不同的标识,比如代表关键词的标识,圆点和方形可以选择,默认是圆点。如果是想放在论文里,想要图中的词看得更清楚可以在这个位置调节。

关键词共现分析图 python_关键词共现分析图 python_17

 至此,结束。

如果有不正确的地方欢迎指正!也欢迎在评论区提问,一起讨论~