很少有杂志对文章字数有具体的要求,写的太多可能要付更多地版面费,太少了可能又无法将自己的研究内容清楚的表达出来。那么写多少字合适呢?废话不多说,我们来看数据。

再爬bioRxiv文献数据库一篇论文写多少字合适_java

之前的文章已经介绍了bioRxiv上文章提交的数量,包括月提交量,年提交量等。具体参考:

bioRxiv上5万余篇学术文章的汇总分析

但是在自己写文章的时候,突然冒出一个想法,会不会有些人在写文章的时候凑字数,比如文章具体研究内容很少,但是为了使文章看起来丰满,于是洋洋洒洒写了很多文章背景,而文章结果部分确很少,也就是呈现负相关。为了搞清这一个问题,所以再次爬了bioRxiv上所有文章各个部分字数的数据。

【数据和代码参加阅读原文】

与上次爬取文章标题和提交时间不同,这次需要爬取文章内容,并统计每一部分的字数。截止目前(2019年10月15日),bioRxiv上共约有62000多篇文献。这么大的数据量,爬取必然不容易。

bioRxiv网址可能存在反爬虫设置,爬取一段时间后,就无法访问了。在第一次爬取过程中,没有遇到这个问题。所以为了避免这个问题,首先爬取过程使用的IP代理,使用方法参考源代码;其次,设置了访问时间间隔,每个数秒或数十秒访问一次。同时为了避免给给服务器带来太大负担,影响其他人员访问,此次也没有使用多线程爬取。所以,在这种情况下, 爬完6万余篇文献足足用了好几天时间。

此外,有些文献没有网页版全文,只有PDF版,这部分文献并不多,此次爬取排除了此类文献。随后,经过数据清理等,一共得到了42348篇文献有效数据。

文章各部分字数分析一篇论文写多少字合适_java_02

1、文章摘要

一篇论文写多少字合适_java_03

【竖直蓝色虚线为100到400每隔50做的刻度线】

上图是对各个文献摘要部分字数统计,中位数为227个字,其中最多的一篇文献的摘要写了1365个字!

此外,一个很有意思的是,在100,150,200,250,300,350,400处,有明显额高峰,这在文章其他部分是没有出现的!这可能是受到杂志摘要字数限制的原因。所以可以看出来,很多人都受到字数限制困扰。匆匆忙忙写好了文章,在投稿的时候为了满足杂志要求,不得不痛苦的删减字数,一个字一个字的删减,直到到了200!终于搞定!

2、文章前言

一篇论文写多少字合适_java_04

前言部分,最少的只写了33个字!不过仔细看看,它说别的文章已经介绍了,去参考其他文献吧。

前言最长的写了8568个字。中位字数为763个字。

3、 文章方法

一篇论文写多少字合适_java_05

文章方法部分普遍比前言部分多,最多的一篇文献对方法的描述达到了16100个字!中位字数为1438个字。

4、文章结果

一篇论文写多少字合适_java_06

文章结果是文章的重点部分,此部分一般字数比前言和方法都要多。最多的有20030个字数,中位字数为2329个字。

5、文章讨论

一篇论文写多少字合适_java_07

文章讨论是文章的点睛之笔,中位字数在1086个,有一位大神的文章讨论足足写了25546个字!比第二名的足足多了一万多字

而最少的一位大神的讨论仅仅有35个字,确实,就一句话!

具体文章参考原始数据连接。

6、文献引用数量

一篇论文写多少字合适_java_08

文献应用数量差异也比较大,中位引用数量为53篇。其中,最多的一片文献引用了足足565篇文章。

7、 上述各部分比较

将上面各部分放在一起比较如下图:

一篇论文写多少字合适_java_09

【注,为了美观,横坐标字数截止到5000】

除了“摘要“部分,“前言”字数是论文作者们比较一致的,差别相对不大,其次是“讨论“部分,各篇文献差别也不大,而“结果“部分各篇文献的差别十分大!有不少人的“结果“部分写的很简短,也有不少人结果写了好几千字甚至上万字。

各部分字数相关性分析一篇论文写多少字合适_java_10

一篇论文写多少字合适_java_11

对文章各部分字数的相关性分析,结果显示不管是正相关还是负相关,文章各个部分都有相关性。但是,实际上相关系数不大, 主要是数据样本量太大,造成检验灵敏度太高,即使很小的差异也能检验出来。

其中“方法”和“结果”相关系数略大一些,不过也好理解,方法介绍越多,可能得到的结果也越多。此外,“前言”和“讨论”部分也有很大相关性,但是前言越多,讨论越多?

引用文献数量对文章长度的影响一篇论文写多少字合适_java_12

文章引用文献的数量和文章的长度应当存在正相关性,文章越长,引用到的文献数量越多。下面对文献数量和文章各部分字数做了线性模型。结果如下:

一篇论文写多少字合适_java_13

结果和我们的预测很接近,也符合我们的预期。文章摘要部分一般没有引用文献,所以,文章摘要部分字数和文献数量没有关系。除了摘要之外,其他各个部分的字数均和引用文献数存在显著正线性关系

其中“讨论”部分字数对文献数量影响最大,这很好理解。不过,我们的模型显示“结果”字数比“前言”字数对文献引用数量影响更大。一般“前言”部分会引用更多地文献,而“结果”部分通常较少引用文献。

总结

一篇论文写多少字合适_java_14


“摘要“删减字数是一个普遍的问题!

“前言”部分大家还比较保守,写的字数常常比较统一,但是到了“结果”和“讨论”部分,字数就差别很大,有些策马扬鞭、洋洋洒洒写了上万字,有些惜墨如金,短短数十数百字就结束了!

【谢谢关注】


数据和代码见:https://github.com/Yiguan/crawl_bioRxiv2

一篇论文写多少字合适_java_15