【爬虫系列】人民日报半个世纪的资料（文末福利）

原创

mb5fe94870638be 2020-12-30 12:12:45 ©著作权

文章标签 java 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者mb5fe94870638be的原创作品，请联系作者获取转载授权，否则将追究法律责任

在资料库中人民日报从1957年-2002年近半个世纪的报纸资料：

http://www.ziliaoku.org/rmrb/

如此好的资料，就应该自己收藏到本地，因为说不定哪一天，网上的资料就被删除了。

所以：写个爬虫爬下来

【爬虫系列】人民日报半个世纪的资料（文末福利）_java

其实，request，urllib等的包也可以爬取，但是在处理中文字符上有很大问题，而robobowser可以解决此问题。

另外，在re.DOTALL用来设定dot能够表示包含换行符在内的所有字符。

不过反思以上代码，作为面向对象的编程语言，在上述代码中不仅没出现class，连def也没有出现，确实是python入门水平。

但不管怎样，我们得到了我们想要的东西，像这样：

【爬虫系列】人民日报半个世纪的资料（文末福利）_java_02

这半个世纪，大概有1111869篇新闻报道。当然，有了下载数据，如果有兴趣也可以做一个文本分析。

福利：经过几经周转，终于把所有文档下载并压缩了下来，文件已经按时间重命名：

文件大小：1.44GB

链接：https://pan.baidu.com/s/1hsgsDJe

密码：joe9

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯