爬取人民日报_【爬虫系列】人民日报半个世纪的资料(文末福利)

论坛 期权论坛 编程之家     
选择匿名的用户   2021-5-29 11:49   816   0

在资料库中人民日报从1957年-2002年近半个世纪的报纸资料:

http://www.ziliaoku.org/rmrb/

如此好的资料,就应该自己收藏到本地,因为说不定哪一天,网上的资料就被删除了。

所以:写个爬虫爬下来

b2950b1426e3d94ec6f88eec9c43209f.png

其实,request,urllib等的包也可以爬取,但是在处理中文字符上有很大问题,而robobowser可以解决此问题。

另外,在re.DOTALL用来设定dot能够表示包含换行符在内的所有字符。

不过反思以上代码,作为面向对象的编程语言,在上述代码中不仅没出现class,连def也没有出现,确实是python入门水平。

但不管怎样,我们得到了我们想要的东西,像这样:

b062a3c584907bad4242ad5da727afd2.png

这半个世纪,大概有1111869篇新闻报道。当然,有了下载数据,如果有兴趣也可以做一个文本分析。

福利:经过几经周转,终于把所有文档下载并压缩了下来,文件已经按时间重命名:

文件大小:1.44GB

链接:https://pan.baidu.com/s/1hsgsDJe

密码:joe9

分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:3875789
帖子:775174
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP