很高兴回答这个问题,python做爬虫和做数据分析要分开来看。
既然是用python来做,语言基础是二者都需要的,如果你本身就了解python的基本语法,这一步就可以略去,否则你要补充python基础语法知识,如果从来都没有接触过编程语言,要从头学起还得花点时间,如果学习过java、c之类的其他编程语言,花一天时间把python基础过一遍就好了。
爬虫
1.前端基础知识
做爬虫,你的研究对象就是这些网页,首先就要了解这些网页的工作原理,前端基础如html+css+js这些,不一定要会做,但是要能看懂,要会使用浏览器分析元素,这里推荐一款chrome的小插件xpath helper,可以帮你快速解决元素提取。
如果你爬取的网站需要登录,还要了解cookie会话保持的知识。
在具体做爬虫的时候,如果是简单的、不需要太多重复操作的网站,可以用beautiful soup,一些request请求就搞定了,还是建议学习scrapy框架,方便规范的爬取网站
数据分析
数据分析实在数据提取基础上做的,其实就是一些数据运算,首先还是要掌握一些统计学基础了,数据采集好之后,确定要分析的方向,数据计算可以使用padas数据分析库,这个库非常强大,基本满足你的多数需求,数据分析也离不开可视化工具,可以用pyecharts做数据图表,帮助你更好的分析数据。
|