下载该数据集需要填写申请表,请访问https://github.com/nghuyong/weibo-public-opinion-datasets
随着COVID-19在世界范围内的迅速发展,人们被要求保持“社会距离”和“居家隔离”。在这种情况下,广泛的社交互动转移到网络空间,特别是在Twitter和新浪微博等社交媒体平台上。在病毒大流行期间,人们通过发帖来分享信息、表达意见和寻求帮助,而社交媒体上的这些数据对于预防COVID-19传播的研究,如早期预警和疫情检测,都是很有价值的。
数据简介
我们发布了一个从新浪微博收集的全新的、细粒度的大规模COVID-19社交媒体数据集,名为Weibo-COV,包含了从2019年12月1日到2020年4月30日的4000多万条微博发帖。此外,该数据集还包含了诸如职位信息、交互信息、位置信息和转载网络等综合信息。我们希望这一数据集能够从多个角度促进对COVID-19的研究,并使更好和快速的研究能够抑制这种流行病的传播。
数据集的字段说明如下表:
字段 | 字段说明 |
_id | 微博ID |
crawl_time | 爬取帖子时间(GMT+8) |
created_at | 发帖时间(GMT+8) |
like_num | 点赞数 |
repost_num | 回帖数 |
comment_num | 评论数 |
content | 微博内容 |
origin_weibo | 原贴ID |
geo_info | 地址信息,经纬度 |
数据集中每日微博数量分布
数据来源和引用
北京理工大学毛先领教授团队。https://github.com/nghuyong/weibo-public-opinion-datasets 如果使用该数据集,请引用以下EMNLP2020论文: