下载该数据集需要填写申请表,请访问https://github.com/nghuyong/weibo-public-opinion-datasets



随着COVID-19在世界范围内的迅速发展,人们被要求保持“社会距离”和“居家隔离”。在这种情况下,广泛的社交互动转移到网络空间,特别是在Twitter和新浪微博等社交媒体平台上。在病毒大流行期间,人们通过发帖来分享信息、表达意见和寻求帮助,而社交媒体上的这些数据对于预防COVID-19传播的研究,如早期预警和疫情检测,都是很有价值的。

数据简介

我们发布了一个从新浪微博收集的全新的、细粒度的大规模COVID-19社交媒体数据集,名为Weibo-COV,包含了从2019年12月1日到2020年4月30日4000多万条微博发帖。此外,该数据集还包含了诸如职位信息、交互信息、位置信息和转载网络等综合信息。我们希望这一数据集能够从多个角度促进对COVID-19的研究,并使更好和快速的研究能够抑制这种流行病的传播。

数据集的字段说明如下表:

字段

字段说明

_id

微博ID

crawl_time

爬取帖子时间(GMT+8)

created_at

发帖时间(GMT+8)

like_num

点赞数

repost_num

回帖数

comment_num

评论数

content

微博内容

origin_weibo

原贴ID

geo_info

地址信息,经纬度

精选数据 | COVID-19 疫情微博社交媒体数据集_社交媒体

数据集中每日微博数量分布

数据来源和引用

北京理工大学毛先领教授团队。https://github.com/nghuyong/weibo-public-opinion-datasets 如果使用该数据集,请引用以下EMNLP2020论文:

@inproceedings{hu-etal-2020-weibo,
title = "{W}eibo-{COV}: A Large-Scale {COVID}-19 Social Media Dataset from {W}eibo",
author = "Hu, Yong and
Huang, Heyan and
Chen, Anfan and
Mao, Xian-Ling",
booktitle = "Proceedings of the 1st Workshop on {NLP} for {COVID}-19 (Part 2) at {EMNLP} 2020",
month = dec,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.nlpcovid19-2.34",
doi = "10.18653/v1/2020.nlpcovid19-2.34",
}

精选数据 | COVID-19 疫情微博社交媒体数据集_数据_02