在各种网络媒体,大学研究所官网和公众号的铺天盖的宣传中,我们似乎被传递了这么一种信号,我国的科研水平和影响力已经达到世界顶尖水平。本文尝试从一个简单的角度,通过对公共的PubMed论文数据库分析对这个问题提供一些小小的解答。

我假设一个国家的论文被其他国家论文引用的次数可以作为这个国家科研国际影响力的一个指标。简单来说,如果一个国家论文都被自己国家的论文引用,那么无论论文总数和他引总数有多大,其影响力都只局限在本国。相反,如果一个国家的论文被其他国家的论文大量引用,这能够很明显的表明,这个国家的科学研究有很大的国际影响力。

数据收集和预处理

  1. 从PubMed的ftp (https://ftp.ncbi.nlm.nih.gov/pubmed/baseline/)上下载所有xml文件。
  2. 从xml文件中提取论文相关信息,包括期刊,论文,发表日期,作者单位和他引论文列表。

然后提取发表论文的所在国家。这里我只用了一个相对简单的规则:第一个作者的国家必须和最后一个作者的国家相同,那么这个国家被选为这篇论文的国家,否则抛弃。

论文作者的国家信息在通讯地址中可以找到,但是并不是所有的通讯地址都包含着国家的字符串。有些只可能包含城市名,有的只包含研究所或者大学的名字,有的包含着非英语的国家和城市名(欧洲城市),有的甚至有拼写错误。这里我使用了半自动的方法去验证论文作者的国家。

当数据预处理完毕后,我只分析了发表在2000年之后的论文。最后一共有18,766,603篇论文和201,951,782个引用。

为了方便描述,如果论文A引用了论文B,A称为发表论文,B称为引用论文/他引论文

为简单起见,我只分析了他引用数最大的10个国家(被引用最多的10个国家)。

结果

首先我分析了他引总数,论文发表总数和每篇论文的平均他引次数。可以看到中国虽然论文数很高(世界第二,第二张图),但是论文的平均他引数并不高,大约是美国的1/3,在前10个国家中垫底(第三张图)。



我国科研影响力是否已达到世界顶尖水平?PubMed论文按国别引用分析_人工智能

下一张热图展示的是,某一个国家论文如何被其他国家他引。例如,对于所有中国学者的论文,引用它们的论文所在国的百分比。注意,下图每一行的和为1。下面的热图行名我额外加上了"y_"字符前缀,用来表示他引论文所在国,而热图的列表示引用论文所在国。

热图上有两个很明显的红格子,分别是:中国学者论文的他引总数中有68%来自于中国学者,美国学者(或者通讯地址为美国)的论文他引总数有60%来自于美国学者。而其他8个国家学者的论文大约只有25%左右的他引来自自己本国的学者(热图对角线)。

我们如果考虑到前10国家的所有论文的他引只有9.1%来自中国,而50.1%来自美国,我们可以很明显的有如下结论:相对而言,中国学者的论文更多只被中国学者引用。

再看热图的最后一列,我们可以看到,中国学者论文的他引只有16%来自于美国,而其他国家这个比例在30%到40%之间。这表明中国论文对美国的影响力和别的国家比,还是比较低。



我国科研影响力是否已达到世界顶尖水平?PubMed论文按国别引用分析_xml文件_02

下一张热图展示了另一个维度:某一个国家论文如何引用别国的论文。例如,所有中国学者所引用论文的所在国的百分比。注意,下图每一列的和为1。

下图很明显的可以看到,在各个国家发表的所有论文中,都大量引用美国的论文,平均百分比在40%左右。也有很多国家引用德国和英国的论文,平均百分比分别是6%和9%。相对而言,其他国家引用中国论文的百分比很小,例如所有澳大利亚发表的论文的他引中只有4%来自中国(热图第一列第三行)。相对而言,意大利和日本引用中国论文和别的国家相比较多一些,为7%和6%。但总的来说,中国论文只占其他国家论文他引的非常小的一部分。



我国科研影响力是否已达到世界顶尖水平?PubMed论文按国别引用分析_人工智能_03

下面我们看是否国家A的论文更倾向于引用国家B的论文,我们计算下面的fold enrichment:

(k/m)/(n/N)

  • k: 国家A引用国家B论文的次数
  • m: 国家B他引总数
  • n: 国家A引用总数
  • N: PubMed上的他引总数

下面的热图展示了log2 fold enrichment。首先一个很明显的结果是,除了美国,每个国家都非常倾向于引用本国的论文(热图的对角线)。这是因为每个国家都有很多只针对于自己国家的期刊,当然发表在这些期刊的论文更局限于本国。

另外一个明显的结果是,热图的第三行和热图的其他行相比,更加的蓝色。这表明其他国家并不倾向于引用中国学者的论文(under-representation)。



我国科研影响力是否已达到世界顶尖水平?PubMed论文按国别引用分析_弦图_04

最后是这10个国家论文引用关系的和弦图。注意图中的值是百分比(每一个扇区对应100%),因此每一根和弦两端的宽度是不相等的。



我国科研影响力是否已达到世界顶尖水平?PubMed论文按国别引用分析_xml文件_05

讨论

可以有如下扩展分析:

  • 只分析高影响因子期刊上的论文。
  • 按年份的纵向(longitudinal)分析。
  • 我们也可以分析“期刊-国家”之间的引用关系,例如我们可以回答“一个期刊是否真的具有国际影响力”这样的问题。

我国科研影响力是否已达到世界顶尖水平?PubMed论文按国别引用分析_xml文件_06