在资料库中人民日报从1957年-2002年近半个世纪的报纸资料:

http://www.ziliaoku.org/rmrb/

如此好的资料,就应该自己收藏到本地,因为说不定哪一天,网上的资料就被删除了。


所以:写个爬虫爬下来


【爬虫系列】人民日报半个世纪的资料(文末福利)_java


其实,request,urllib等的包也可以爬取,但是在处理中文字符上有很大问题,而robobowser可以解决此问题。

另外,在re.DOTALL用来设定dot能够表示包含换行符在内的所有字符。


不过反思以上代码,作为面向对象的编程语言,在上述代码中不仅没出现class,连def也没有出现,确实是python入门水平。


但不管怎样,我们得到了我们想要的东西,像这样:


【爬虫系列】人民日报半个世纪的资料(文末福利)_java_02


这半个世纪,大概有1111869篇新闻报道。当然,有了下载数据,如果有兴趣也可以做一个文本分析。


福利:经过几经周转,终于把所有文档下载并压缩了下来,文件已经按时间重命名:

文件大小:1.44GB

链接:https://pan.baidu.com/s/1hsgsDJe 

密码:joe9