爬取人民日报_【爬虫系列】人民日报半个世纪的资料（文末福利）

在资料库中人民日报从1957年-2002年近半个世纪的报纸资料：

http://www.ziliaoku.org/rmrb/

如此好的资料，就应该自己收藏到本地，因为说不定哪一天，网上的资料就被删除了。

所以：写个爬虫爬下来

其实，request，urllib等的包也可以爬取，但是在处理中文字符上有很大问题，而robobowser可以解决此问题。

另外，在re.DOTALL用来设定dot能够表示包含换行符在内的所有字符。

不过反思以上代码，作为面向对象的编程语言，在上述代码中不仅没出现class，连def也没有出现，确实是python入门水平。

但不管怎样，我们得到了我们想要的东西，像这样：

这半个世纪，大概有1111869篇新闻报道。当然，有了下载数据，如果有兴趣也可以做一个文本分析。

福利：经过几经周转，终于把所有文档下载并压缩了下来，文件已经按时间重命名：

文件大小：1.44GB

链接：https://pan.baidu.com/s/1hsgsDJe

密码：joe9