有哪些「神奇」的数据获取方式?

论坛 期权论坛 期权     
匿名用户   2018-9-24 01:11   1175214   9
提示: 作者被禁止或删除 内容自动屏蔽
分享到 :
0 人收藏

9 个回复

倒序浏览
2#
DataCastle  3级会员 | 2018-9-24 01:11:48 发帖IP地址来自

大数据时代,用数据做出理性分析显然更为有力。做数据分析前,能够找到合适的的数据源是一件非常重要的事情,获取数据的方式有很多种,不必局限。下面将从公开的数据集、爬虫、数据采集工具、付费API等等介绍。给大家推荐一些能够用得上的数据获取方式,后续也会不断补充、更新。


一、公开数据库

1.常用数据公开网站

UCI:经典的机器学习、数据挖掘数据集,包含分类、聚类、回归等问题下的多个数据集。很经典也比较古老,但依然活跃在科研学者的视线中。

国家数据:数据来源中华人民共和国国家统计局,包含了我国经济民生等多个方面的数据,并且在月度、季度、年度都有覆盖,全面又权威。

CEIC:最完整的一套超过128个国家的经济数据,能够精确查找GDP、CPI、进口、出口、外资直接投资、零售、销售以及国际利率等深度数据。其中的“中国经济数据库”收编了300,000多条时间序列数据,数据内容涵盖宏观经济数据、行业经济数据和地区经济数据。

万得:简要介绍:被誉为中国的Bloomberg,在金融业有着全面的数据覆盖,金融数据的类目更新非常快,据说很受国内的商业分析者和投资人的亲睐。

搜数网:已加载到搜数网站的统计资料达到7,874本,涵盖1,761,009张统计表格和364,580,479个统计数据,汇集了中国资讯行自92年以来收集的所有统计和调查数据,并提供多样化的搜索功能。

中国统计信息网:国家统计局的官方网站,汇集了海量的全国各级政府各年度的国民经济和社会发展统计信息,建立了以统计公报为主,统计年鉴、阶段发展数据、统计分析、经济新闻、主要统计指标排行等。

亚马逊:来自亚马逊的跨科学云数据平台,包含化学、生物、经济等多个领域的数据集。

figshare:研究成果共享平台,在这里可以找到来自世界的大牛们的研究成果分享,获取其中的研究数据。

github:一个非常全面的数据获取渠道,包含各个细分领域的数据库资源,自然科学和社会科学的覆盖都很全面,适合做研究和数据分析的人员。

2.政府开放数据

北京市政务数据资源网:包含竞技、交通、医疗、天气等数据。

深圳市政府数据开放平台:交通、文娱、就业、基础设施等数据。

上海市政务数据服务网:覆盖经济建设、文化科技、信用服务、交通出行等12个重点领域数据。

贵州省政府数据开放平台:贵州省在政务数据开放方面做的确实不错。

Data.gov:美国政府开放数据,包含气候、教育、能源金融等各领域数据。

3.数据竞赛网站

竞赛的数据集通常干净且科研究性非常高。

DataCastle:专业的数据科学竞赛平台。

Kaggle:全球最大的数据竞赛平台。

天池:阿里旗下数据科学竞赛平台。

Datafountain:CCF制定大数据竞赛平台。


二、利用爬虫可以获得有价值数据

这里给出了一些网站平台,我们可以使用爬虫爬取网站上的数据,某些网站上也给出获取数据的API接口,但需要付费。

1.财经数据

(1)新浪财经:免费提供接口,这篇博客教授了如何在新浪财经上获取获取历史和实时股票数据。

(2)东方财富网:可以查看财务指标或者根据财务指标选股。

(3)中财网:提供各类财经数据。

(4)黄金头条:各种财经资讯。

(5)StockQ:国际股市指数行情。

(6)Quandl:金融数据界的维基百科。

(7)Investing:投资数据。

(8)整合的96个股票API合集

(9)Market Data Feed and API:提供大量数据,付费,有试用期。

2.网贷数据

(1)网贷之家:包含各大网贷平台不同时间段的放贷数据。

(2)零壹数据:各大平台的放贷数据。

(4)网贷天眼:网贷平台、行业数据。

(5)76676互联网金融门户:网贷、P2P、理财等互金数据。

3.公司年报

(1)巨潮资讯:各种股市咨询,公司股票、财务信息。

(2)SEC.gov:美国证券交易数据

(3)HKEx news披露易:年度业绩报告和年报。

4.创投数据

(1)36氪:最新的投资资讯。

(2)投资潮:投资资讯、上市公司信息。

(3)IT桔子:各种创投数据。

5.社交平台

(1)新浪微博:评论、舆情数据,社交关系数据。

(2)Twitter:舆情数据,社交关系数据。

(3)知乎:优质问答、用户数据。

(4)微信公众号:公众号运营数据。

(5)百度贴吧:舆情数据

(6)Tumblr:各种福利图片、视频。

6.就业招聘

(1)拉勾:互联网行业人才需求数据。

(2)中华英才网:招聘信息数据。

(3)智联招聘:招聘信息数据。

(4)猎聘网:高端职位招聘数据。

7.餐饮食品

(1)美团外卖:区域商家、销量、评论数据。

(2)百度外卖:区域商家、销量、评论数据。

(3)饿了么:区域商家、销量、评论数据。

(4)大众点评:点评、舆情数据。

8.交通旅游

(1)12306:铁路运行数据。

(2)携程:景点、路线、机票、酒店等数据。

(3)去哪儿:景点、路线、机票、酒店等数据。

(4)途牛:景点、路线、机票、酒店等数据。

(5)猫途鹰:世界各地旅游景点数据,来自全球旅行者的真实点评。

类似的还有同程、驴妈妈、途家等

9.电商平台

(1)亚马逊:商品、销量、折扣、点评等数据

(2)淘宝:商品、销量、折扣、点评等数据

(3)天猫:商品、销量、折扣、点评等数据

(4)京东:3C产品为主的商品信息、销量、折扣、点评等数据

(5)当当:图书信息、销量、点评数据。

类似的唯品会、聚美优品、1号店等。

10.影音数据

(1)豆瓣电影:国内最受欢迎的电影信息、评分、评论数据。

(2)时光网:最全的影视资料库,评分、影评数据。

(3)猫眼电影专业版:实时票房数据,电影票房排行。

(4)网易云音乐:音乐歌单、歌手信息、音乐评论数据。

11.房屋信息

(1)58同城房产:二手房数据。

(2)安居客:新房和二手房数据。

(3)Q房网:新房信息、销售数据。

(4)房天下:新房、二手房、租房数据。

(5)小猪短租:短租房源数据。

12.购车租车

(1)网易汽车:汽车资讯、汽车数据。

(2)人人车:二手车信息、交易数据。

(3)中国汽车工业协会:汽车制造商产量、销量数据。

13.新媒体数据

新榜:新媒体平台运营数据。

清博大数据:微信公众号运营榜单及舆情数据。

微问数据:一个针对微信的数据网站。

知微传播分析:微博传播数据。

14.分类信息

(1)58同城:丰富的同城分类信息。

(2)赶集网:丰富的同城分类信息。

如果你是小白,想通过爬虫获得有价值的数据,推荐我们的体系课程——Python爬虫:入门+进阶


三、数据交易平台

由于现在数据的需求很大,也催生了很多做数据交易的平台,当然,出去付费购买的数据,在这些平台,也有很多免费的数据可以获取。

优易数据:由国家信息中心发起,拥有国家级信息资源的数据平台,国内领先的数据交易平台。平台有B2B、B2C两种交易模式,包含政务、社会、社交、教育、消费、交通、能源、金融、健康等多个领域的数据资源。

数据堂:专注于互联网综合数据交易,提供数据交易、处理和数据API服务,包含语音识别、医疗健康、交通地理、电子商务、社交网络、图像识别等方面的数据。


四、网络指数

百度指数:指数查询平台,可以根据指数的变化查看某个主题在各个时间段受关注的情况,进行趋势分析、舆情预测有很好的指导作用。除了关注趋势之外,还有需求分析、人群画像等精准分析的工具,对于市场调研来说具有很好的参考意义。同样的另外两个搜索引擎搜狗、360也有类似的产品,都可以作为参考。

阿里指数:国内权威的商品交易分析工具,可以按地域、按行业查看商品搜索和交易数据,基于淘宝、天猫和1688平台的交易数据基本能够看出国内商品交易的概况,对于趋势分析、行业观察意义不小。

友盟指数:友盟在移动互联网应用数据统计和分析具有较为全面的统计和分析,对于研究移动端产品、做市场调研、用户行为分析很有帮助。除了友盟指数,友盟的互联网报告同样是了解互联网趋势的优秀读物。

爱奇艺指数:爱奇艺指数是专门针对视频的播放行为、趋势的分析平台,对于互联网视频的播放有着全面的统计和分析,涉及到播放趋势、播放设备、用户画像、地域分布、等多个方面。由于爱奇艺庞大的用户基数,该指数基本可以说明实际情况。

微指数:微指数是新浪微博的数据分析工具,微指数通过关键词的热议度,以及行业/类别的平均影响力,来反映微博舆情或账号的发展走势。分为热词指数和影响力指数两大模块,此外,还可以查看热议人群及各类账号的地域分布情况。

除了以上指数外,还有谷歌趋势搜狗指数360趋势艾漫指数等等。


五、网络采集器

网络采集器是通过软件的形式实现简单快捷地采集网络上分散的内容,具有很好的内容收集作用,而且不需要技术成本,被很多用户作为初级的采集工具。

造数:新一代智能云爬虫。爬虫工具中最快的,比其他同类产品快9倍。拥有千万IP,可以轻松发起无数请求,数据保存在云端,安全方便、简单快捷。

火车采集器:一款专业的互联网数据抓取、处理、分析,挖掘软件,可以灵活迅速地抓取网页上散乱分布的数据信息。

八爪鱼:简单实用的采集器,功能齐全,操作简单,不用写规则。特有的云采集,关机也可以在云服务器上运行采集任务。

——————————

关注公众号(datacastle2016),获取更多数据分析干货。

3#
Yiqin Fu  3级会员 | 2018-9-24 01:11:49 发帖IP地址来自
导师是研究非洲经济的,分享过两个故事:

他一个同行去乌干达找数据,某次从政府大楼出来的时候,发现工作人员在把大量纸张送到附近的垃圾场。他跑到垃圾场一看,居然是乌干达的历史数据!工作人员说这些没什么用,所以领导叫扔了。导师的同行及时抢下,后来组织当地人和他的学生扫描清洗,现已做成世界上最大的乌干达数据库。

第二个故事更厉害。导师的导师很想研究竞选口号对投票结果的影响。在穷国家,我们担心竞选人为了讨好民众,会承诺“私人物品”而非惠及所有百姓的福利(比如承诺“当选后给你这个村修条路”、“当选后招你这部落的人进内阁”)。

要想研究“承诺私人物品”会不会赢得更多票数,你不可能让竞选人赌上自己的职业生涯来帮你做实验,所以传统的研究方法是“事后观察”。

运气好的话,竞选口号播出的电视信号是逐步在全国开通的,那你可以比较先收到和后收到电视台信号的区域。运气好的话,电视信号在某个地方突然断了一个月,那你可以比较一直有信号的和信号断了的区域。这些方法都需要很多其他条件成立,还需要很多后期统计处理。更重要的是,穷地方多半没有收视率和民调数据,所以研究基本没戏。

不过导师的导师非常神奇。他出生在非洲国家贝宁,国家动乱后辗转去了美国西北大学读博,贝宁局势稳定后他成了贝宁新领导层的朋友。有了前述研究想法后,他居然说服了贝宁各个派别的总统候选人帮他做这个实验。


2001 年各家的竞选口号,一半讲“私人好处”(“选上了我给你这个村子修路”),一半讲“公共利益”(“选上了我会进行全国改革”)。

当然了,各派系只同意在自身优势较大的选区做这个实验,所以实验结果也有局限性。其他技术细节(例如溢出问题)这里不再展开。

论文:nyu.edu/gsas/dept/polit

普通人想做实验也不是不可以,只是要冒生命危险。有斯坦福和达特茅斯教授 2014 年向美国蒙塔娜州选民随机邮寄印有竞选人信息的传单,不过传单设计很容易让人以为是官方资料,所以教授和所在大学被政府以“企图影响竞选结果”为由而严重警告,面临罚款。研究当然也就此结束。

导师本人没什么故事。不过他有一回去非洲某国家机关要历史数据,对方找给他一沓册子,说咦这里还真有一套,你可以拿走了。导师说,既然册子只有这么一套,我还是借阅几天、扫描完归还。对方说,我们留着也没用,你就拿走吧。

导师就拿回国了...
4#
Robin王  1级新秀 | 2018-9-24 01:11:50 发帖IP地址来自

作为互联网营销策划,经常需要查询一些数据来完善方案逻辑,因此整理了一些数据网站,分享给大家。

主要为互联网数据和一些传统数据的查询,主要包括:

1. 互联网部分:移动端数据(微信、微博、APP),网站数据,综合数据,票房和电视收视率,视频指数,内容数据

2. 传统数据部分:经济数据,企业数据,金融数据,汽车数据,建筑数据,医疗数据,服装数据,建筑数据

只涉及数据查询不涉及报告下载,至于下载数据报告网站(看点赞情况再分享吧),用完这些网站,如果还有什么数据查不到,私信我,再分享一些网站给你查(我就说说别当真/调皮)

特地将数据网站整理为书签,点击此链接直接导入书签:pan.baidu.com/s/1nvSBeB

最近看了一下数据(感谢195,2385次收藏/流汗)别光收藏、感谢呀,顺便点个赞呗:越点赞越好运

一、移动端数据

l 微信数据(营销老是要分析一些KOL和自媒体)

1. 排名列表_日榜

2. 新媒体指数

3. 微问数据_微信公众号分析

4. 微榜 | 爱微帮新媒体榜 Beta

5. simplyKOL微信数据

6. 微指数_微信大数据领导者_微信文章_微信营销_微信公众账号大全_微信排行榜

7. 微信公众平台导航_微信公众账号大全

8. 可查90数据-易赞 (部分数据配合数据透视,有更多惊喜)

l 微博数据(宝强过后微博又开始红了一段时间)

1. 知微传播分析-WeiboReach

2. 微博认证-名人堂

3. 发现-热门微博

4. 微风云_微博风云榜

5. 数据首页-微博数据中心-新浪微博

l APP数据(帮几家金融机构的APP,做过推广和优化,所以收藏了一些网站)

1. 热门苹果应用搜索 只查IOS

2. App Annie App Store Stats | iOS热门 App 排行榜 中国 - 所有类别 只查IOS

3. 应用雷达-iOS深度移动推广运营服务平台|苹果APP排名搜索优化统计分析 只查IOS

4. 友盟指数 - 最专业的移动互联网行业发展趋势指数

5. 首页-应用排名分析平台-爱盈利

6. ASO100 - 中国最专业的 App Store 排名、ASO 数据平台

7. App竞品大数据平台_App运营、ASO优化必上APPDUU

8. APP宏观数据—友盟指数 - 最专业的移动互联网行业发展趋势指数

9. 应用排名分析平台-爱盈利

10. APP排名查询-易观千帆(数据比较详细,可惜只能免费查三天)

11. 安卓&IOS APP数据-酷传 - 添加应用 安卓和IOS都可以查

二、网站权重和数据(网站SEO和SEM不太懂,但是有一家很牛的供应商,主要做中间商,整理方案)营销的时候,SEO和舆情更配

1. Alexa网站排名查询

2. 中国站长站

3. 站长工具-百度权重排名查询-站长seo查询 - 爱站网

4. 网站排名_网站数据流量查询_中国网站排名_网络媒体精品推荐

5. 友情链接—友情链接查询|友情链接检查工具-站长帮手网

6. PR真假—PR查询|PR真假查询|PR劫持检测-站长帮手网

7. 友情链接交换—go9go友情链接平台--想链就链go9go

8. 行业网站排名_行业网站排行榜_行业网站大全 - 网站排行榜

三、综合指数(写传播结案和分析客户传播节奏的时候用)

1. 百度指数

2. 搜狗指数

3. Google 趋势

4. 好搜指数-搜索大数据分享平台

5. 微指数首页

6. 热搜榜单首页--百度搜索风云榜

7. 艾曼指数首页

8. 淘宝指数 - 淘宝消费者数据研究平台(已经没有了,以前很好用)

9. 阿里指数 - 社会化大数据分析平台(必须要开过淘宝店的账号,更可气的是只能查询单一行业)

10. 阿里指数_最权威专业的行业价格、供应、采购趋势分析(这个就能完美解决上面的问题)

四、票房和电视收视率(额……为什么有这些网站,才不会告诉别人,是因为我喜欢看电影)

1. 中国票房

2. 电视收视率—CSM

3. 猫眼票房分析

4. 精选预告片 - 预告片世界

五、视频指数(近期想切入视频IP市场的推广,也就是想想)

1. 搜库-专找视频

2. 腾讯视频指数

3. 中国网络视频指数 – 网络视频收视数据分析平台

4. 优酷指数 - 中国第一视频网,提供视频播放,视频发布,视频搜索

5. 搜狐视频指数中心 - 搜狐视频

6. 爱奇艺指数

六、内容排行(这个网站偶尔看一下热点吧,用的比较少)

1. 网评排行-搜狐

一、经济数据

1. 人民银行

2. 国家数据

3. 中国银行业监督管理委员会

4. 中国统计信息网

5. 统计数据

6. 中华人民共和国国家统计局 统计数据

7. 专项统计数据-中国证券业协会

8. 居民消费价格指数(CPI) _ 数据中心 _ 东方财富网

二、企业数据(有时候接到一些Brief,大部分客户不靠谱,可能会问候一下他企业背景)

1. 全国企业信用信息公示系统 (官方出品)

2. 企业信息—天眼查-最专业的企业工商信息查询(这个比官方的好用)

3. 企业名录-企业黄页_必途网企业黄页大全

4. 企业信用查询_企业信用报告查询系统_注册信息查询网-信用视界

三、金融数据

l 网贷数据(去年P2P,不,是互联网金融很火的)

1. 金汇金融__平台指数_P2P网贷平台评级_网贷315

2. 【p2p网贷平台排名】最新网贷平台排名_网络借贷平台排名_网络贷款平台排名-网贷之家

3. 平台报告-零壹数据

4. 上海贷款_小额贷款_贷款公司_银行贷款 - 融360

5. 平台指数_P2P网贷平台评级_网贷315

6. 新金网 - 最专业的互联网金融导航网站

7. P2P网贷平台数据排行对比_网贷平台数据_网贷天眼

8. p2p排行榜,网络理财排行榜,第三方p2p平台排行榜 - 76676-最大的投资理财产品点评平台

l 上市公司年报(竟然为了分析社媒趋势去看BAT的年报,表示看不懂呀)

1. 中国—巨潮资讯网

2. 美国—SEC.gov | Company Search Page

3. 香港—:: HKEx :: HKExnews ::

l 信托(信托切入互联网金融相对较慢,今年刚开始接触的几个客户)

1. 研究报告 - 中国信托业协会

2. 中国互联网金融研究中心 中国互联网金融网 中国互联网金融联盟 中国电子商务研究中心

l 其他

1. 案例报告列表_融资案例_并购案例_行业案例_企业案例_数据_分析—投资潮

2. 融资数据—融资事件列表页 | IT桔子

3. 研究院_ChinaVenture投资中国网

4. 百度财富-专业金融服务平台

5. 世界银行-Data | The World Bank

6. 全球股市指数

7. 股指期货数据

四、汽车数据(有一个汽车配件的客户,讲真,汽车客户真的比金融客户前期好搞,不过后期服务就呵呵了)

1. 数据中心 世界汽车统计 中国汽车工业协会

五、建筑数据(我也不知道为什么有这个网站)

中华人民共和国住房和城乡建设部 - 单位资质查询

六、医疗数据

1. 世界卫生组织 | 规划和项目

七、服装数据(才不会告诉你,我是学国际经济与贸易出身的,后来才做了互联网营销策划,其中有一万只羊驼在奔跑)

1. 中国皮革原材料指数

2. 海宁周价格指数

3. 中国柯桥纺织指数

4. 大朗毛织价格指数

八、工业指数

1. 今日国际原油价格,原油价格走势图,原油价格指数-油价网

2. 上海有色金属价格指数

3. 水泥指数


其他数据

1. 中国统计信息服务中心 口碑查询

2. 最具公信力的名人影响力指标 - 必应 影响力

3. 全部榜单--百度搜索风云榜

4. 百度预测-大数据 知天下

l 原始数据-数据淘(这个网站听说可以买到原始数据,不过没有试过)

这些网站还不错,数据也算可以,其他的数据网站没有分享了。这只是网站,具体用法太多了,就没有分享单个教程。强调:网站用的好,真的能用出花来,比如百度指数+百度新闻=客户和竞品的传播节奏。具体网站的功能多试试,不要执着于网站,要多变通思路,希望能找到想要的数据(说服力)。

5#
团支书  3级会员 | 2018-9-24 01:11:51 发帖IP地址来自

有多少人,因为看到一张漂亮的可视化图表而走上了学习数据分析的道路。
有多少人,因为无法获取到想要的数据,忍痛半途而废。

数据啊,要怎么才能找到你?

在数据团之前的活动中,我们推出过免费和收费的课程,教大家怎么通过爬虫获取互联网数据。
但是,仅仅有互联网数据是不够的……它顶多占常见数据类型的1/8:



剩下7/8的数据去哪里找呢?

有没有一个活雷锋的组织,里面有许多热衷于分享数据的小伙伴,甚至会按照我的需求去帮忙收集数据呢?

有!

数据界的活雷锋、最最神奇的数据获取方式——

【城市数据研习社】城市数据库开放啦!

活动平台:
QQ群“研习社—城市数据库”,群号 143892177(加群注明:城市数据分享)。

---------------------
这是一篇广告
广告及其推广内容免费
---------------------

主要活动说明:



1、数据共享:
由城市数据研习社、国匠城、城市数据团共同提供的数据,公开发放给大家,同时欢迎小伙伴儿分享自己的数据,建议标注数据来源、数据量、数据坐标等信息。现分享数据包括:
(1) 全国重点城市的POI数据
λ 城市:北京、上海、深圳、重庆、南京、青岛、西安、武汉、成都、苏州、厦门、长沙、哈尔滨、贵阳、杭州、昆明、徐州、三亚、关注……
λ 标签:餐饮、旅游景点、公共设施、交通设施、购物、教育、金融、商务住宅、生活、体育、医疗、政府办公、住宿服务
(2) 世界重点城市基础地图数据
λ 城市:伦敦、纽约、摩纳哥、威尼斯、香港、马德里、莫斯科、柏林、澳门
λ 标签:建筑面、POI点、道路线
(3) 全国高清影像图数据
λ 支持地图:谷歌地图、高德地图、腾讯地图、百度地图、必应地图等
(4)全国省界、市界的行政边界数据
(5)世界行政区划矢量数据
(6)全国地貌数据

2、数据导航:
数据导航报告是国匠城精心整理的数据获取网站的汇总,报告见群文件——城市数据研习社数据导航报告;同时欢迎大家积极提供数据获取的网站与途径,共同完善数据导航报告。

3、数据申请:
提供由研习社、国匠城、城市数据团三大机构通过商业合作、购买等方式获取的数据,需要通过协助推送优秀城市数据分析师及相关数据技能分享的方式申请获得,且以城市(城镇)为单位,申请该城市(城镇)相关数据:
(1)城市基础数据
(2)DEM地形数据
(3)街道单元的人口数据
(4)生态湖泊水系数据
(5)城市公园绿地数据

4、数据众筹:
通过提交“数据众筹计划书”,由城市数据研习社的小智发布“数据众筹公告”,招募小伙伴,自愿组成“数据众筹小组”,进行数据收集、整理,城市数据研习社提供部分技术支持。

5、数据支持:
城市数据团与滴滴大数据研究中心、TalkingData、同策房产咨询、银联智慧研究院、大众点评研究院、链家研究院、支付宝口碑、上海道融自然保护与可持续发展中心、高德地图、安居客等多家机构有着良好合作关系,现面向研究者们开放商业级数据申请接口,研究者通过填写“研究计划书”参与数据支持活动,通过审核后将由数据提供方对研究者提供数据。

怎样参与?

加入"研习社—城市数据库"QQ群,群号码为560593227(加群注明:城市数据分享)

6#
Liu Cao  4级常客 | 2018-9-24 01:11:53 发帖IP地址来自
update: 强烈不推荐搞学术、做量化使用此方法,此方法只适用于商科PPT犬,做一些定性分析时使用。
-----
我不是搞经济学的,但是最近做实习,要找N多千奇百怪的data,其中有些变态的数据,找来找去都找不到。

但是在某个一霎那,你会突然发现某个report/paper 里刚好有我们想要的数据。就像这样:
来源:colliers.com/-/media/fi

但是然并卵... 你去email colliers 要data 他并不会理你啊。

这时候就轮到神器登场了,Ankit Rohatgi 开发的 WebPlotDigitizer


上传我们想要的图片:


描好坐标轴和点:



导出数据,大功告成!

当然还有其他的,比如
Welcome to DataThief
digitizer.sourceforge.net
Digitize graphs and plots
或者你也可以自己写matlab code啥的识别

反正我是懒得下载软件/自己写code。
---------
其他可以解锁的技能:
NO1.使用 WebPlotDigitizer 自动识别曲线。
NO2.使用 WebPlotDigitizer 处理数据后使用Plotly直接画出曲线。
NO3.使用 WebPlotDigitizer 识别对数坐标轴
7#
金胤臻  2级吧友 | 2018-9-24 01:11:54 发帖IP地址来自
===== 更新 =======
很多朋友想要知道更多应用,因为最近时间比较紧,我这里先写一下之前我在美国用过的selenium免费下载天气数据的办法。

美国有很多天气的网站,之前做的一个项目需要我从四个网站抓取同一个地点的数据,然后对比一下。很多网站的天气数据都是公开的,免费,没有问题,下载就行。但是有个商业网站,Weather Source 是需要购买api付费的。而且比较贵。
free的那一栏其实很多资源都没办法用,然后1000个requests意味着最多1000个地方的数据可以下下来,而且数据量太少了。其他的价格很贵。
后来我看了一下,发现还有一个可以手动下载的地方:
30天,只要40美金。
点击sign in就可以进去了。进去之后是这样一个页面:
然后输入你的zipcode,查找find report,之后你会发现:
点击进入 随便找一个station,点击view report,然后你会看到
点击spredsheet downloads就可以下载你需要的数据了。点击下载的时候会跳转到一个下载页面然后告诉你需要保存么?

通过这样一系列的手工操作我发现了一定的规律,然后就可以用selenium下载文档了。
你会发现下载的链接是:
http://weathersource.com/account/downloads/download?file=dailyCSV&sid=t5s950bd4mjfs0fc1mis08k2a4&location=94065&start-date=1%2F1%2F1970&end-date=1%2F1%2F1970&obs=temp&station-id=28514&latitude=37.5335&longitude=-122.25&download-csv=download+spreadsheet

其中sid 是你需要的key,这个key当你登录了之后会直接有的。然后其他的parameter 就非常容易理解。那么就开始写脚本:
from selenium import webdriver# 初始化 webdriverurl = 'http://weathersource.com/'driver = webdriver.Chrome()driver.get(url)# 中间你可以设置一个断点,然后sign in,之后手工获取你的sidsid = raw_input("获取你的sid:")url = 'http://weathersource.com/account/downloads/download?file=dailyCSV&sid={sid}&location={location}&start-date={start_date}&end-date={end_date}&obs=temp&download-csv=download+spreadshee'# 假设你的start date, location,还有 end date 都知道,zipcode 你有一堆的zipcode需要获取。for zipcode in zipcode:    driver.get(url.format(start_date=XXX, end_date=XXX, zipcode=zipcode, sid=sid)# 这里注意:为了能自动下载文件了,需要在chrome里设置自动保存就好了,不会弹出另存为的页面
通过上面的方法,我开了4个进程,一天之内就下好全美国的所有的数据,而且花了很少的钱,相对于购买api的价钱来说,省了不知道多少。唯一的缺点是,需要手动登录然后获取sid,虽然有些笨,但是对于当时还是个穷学生来说还比较划算。

这个只是一个例子,说明selenium有的时候可以用得很好来巧妙地获取数据。实际操作的时候,如果有api尽量用api,它只是在不可能中寻找可能。

===== 以前 =======
有好多方式方法可以用来获取数据,之前去面试一家公司,直接让我写个爬虫。爬虫脚本是比较容易想到的获取数据的方法。但是有的时候很多网站不提供api,然后用写爬虫的时候又还要用各种软件去截取信息,有的时候会花费一些时间。

相信很多人用过selenium用来做testing。我想在这里介绍一下用selenium来获取数据的方法。selenium可以模拟人在浏览器上如何操作,换句话说,当你在浏览网站的时候,看到网站上上有数据想要手动截取下来,selenium可以模拟整个过程然后进行规模化的抓取数据。那么下面我就举个例子:假如你想要获得微博某条下面所有回复的用户id,你就可以用selenium来直接抓取:

以下我用python的selnium来举例


1. 安装
pip install selenium

2. 脚本
from selenium import webdriverurl = 'http://weibo.com/ttarticle/p/show?id=2309404020700624096846'# 初始化一个webdriverdriver = webdriver.Chrome()# 用driver打开微博的链接,可能需要登录,手动登录一下就好driver.get(url)# 很多网站用h5的版本比较容易得到数据 我们登录微博了之后重新获取一个url,是h5的urlurl = 'http://m.weibo.cn/2723620723/E8ODT8Ydl'# 获得评论列表(这个需要自己查看网页的结构,每一个都不太一样)comment_list = driver.find_elements_by_class_name('mod-media')for comment in comment_list:    print comment.get_attribute('href')result:http://m.weibo.cn/u/2723620723http://m.weibo.cn/u/2292913074http://m.weibo.cn/u/1785845023http://m.weibo.cn/u/2870114170http://m.weibo.cn/u/2410507423http://m.weibo.cn/u/2151174850http://m.weibo.cn/u/1775468601http://m.weibo.cn/u/2146208555http://m.weibo.cn/u/2987324042http://m.weibo.cn/u/2097203285http://m.weibo.cn/u/5514270657http://m.weibo.cn/u/1851751764http://m.weibo.cn/u/3032379471http://m.weibo.cn/u/3224372162http://m.weibo.cn/u/1805635755http://m.weibo.cn/u/2448378651http://m.weibo.cn/u/1789747610http://m.weibo.cn/u/3550528030http://m.weibo.cn/u/3236610784http://m.weibo.cn/u/2258176024http://m.weibo.cn/u/5612221249http://m.weibo.cn/u/6023204693http://m.weibo.cn/u/2711823422http://m.weibo.cn/u/1736956963http://m.weibo.cn/u/2971442923http://m.weibo.cn/u/5311296945http://m.weibo.cn/u/1774168531......    

selenium 通过 webdriver 来控制浏览器,然后通过命令让浏览器做一些事情:点击某个链接去某个地方,点击下载的链接下载文件。他的好处是方便,不需要复杂的授权之类的,一般网站都会有cookies,所以你人工手动的授权一次就可以浏览所有的文件了。

好处:
1. 有的时候你直接查看pagesource的时候是看不到很多信息的,但是通过selenium的dom你是可以直接得到,因为pagesource很多是没有执行js,并不能模拟你当前看到的网页的结构。
2. selenium而且更加方便,不需要知道很多网络知识。
3. 很多时候可以做限制级的事情,因为感觉就是人在操作一样。善于运用cookies。

坏处:
1. 每一种网站都不一样,而且网站经常在变化,所以dom的时候你要经常变化。
2. 速度相对来说比较慢

selenium用的好其实可以做很多事情,也可以获得很多数据。之前我去获取一些美国的天气数据的时候,需要下载验证,就用了selenium做批量的处理,所以感觉相对来说还是很方便的。大家可以试试。
8#
匿名用户   | 2018-9-24 01:11:55 发帖IP地址来自
提示: 作者被禁止或删除 内容自动屏蔽
9#
林茜茜  2级吧友 | 2018-9-24 01:11:56 发帖IP地址来自
有一个利器,能帮你快速爬取你想要的资源……

有时候,你需要下载电影、音乐的资源,却发现下不下来。


因为你没安装客户端……



或者是找不到下载按钮在哪


这时候,愤怒的你可能会想要自己写个爬虫来搞定,那么在这里要告诉你,不必重新发明轮子了,有这样一个工具,5秒内就能帮你下载好你想要的资源!



使用这个工具,只需要输入命令,然后你就会看到5秒内视频下好了……

使用 you-get 快速爬取视频并下载 http://v.qq.com/page/c/s/e/c0199oa6hse.html

还可以用来任性批量下图……


使用 you-get 批量爬取图片 http://v.qq.com/page/w/2/k/w0199lynz2k.html


支持64个网站,包括优酷、土豆、爱奇艺、b站、酷狗音乐、虾米……总之你能想到的网站都有! 还有一个黑科技的地方,即使是名单上没有的网站,当你输入链接,程序也会猜测你想要下载什么,然后帮你下载。


这个神器的利器叫做:you-get,是一名华人程序员使用 python 3开发的,在 Github 上已经有接近6000 star, 你可以访问:You-Get 查看详细的使用说明。



简单来说,使用分3步:

第一步:


你要安装好 Python 3环境,你应该早就安装了对不对!


第二步:


用 pip 安装 you-get


看过实战课程的同学应该对这个很熟悉了

在终端/命令行输入:pip 3 install you-get

第三步:


在终端/命令行输入you-get 加上你想下载的链接,比如:

$ you-get stallman.org/rms.jpg

然后伸个懒腰,就下载好啦~


快去帮女神下载美剧,帮基友下载动画吧!

虽然是利器,可能还是不能完全满足你的需求,比如说,如果你想分析热门视频的点赞量和发布时间的关系,这些字段是不包含在内的,还是需要自己写爬虫……


总之,编程是很强大的,能开发出高效的工具节省我们的时间。但如果想要完全按照自己的需求来定制的话,还是投资自己比较快,学好爬虫技能,能让获取信息不再受到阻碍。


---

想看更多适合编程小白的优质文章,可以关注微信公众号「说人话的Python分享」:

weixin.qq.com/r/L0hier7 (二维码自动识别)

10#
路人甲  1级新秀 | 2018-9-24 01:11:57 发帖IP地址来自
数据获取的方式么,作为一个深度的数据挖掘控,数据爱好者,我要来回答一次了。

第一是爬虫
到现在,我最常用的获取数据的方式也基本上是爬虫,好处就是看到任何想抓取的数据,爬虫基本上都可以做到。
抓过的一些数据包括:
100w知乎用户信息、420w某彩票信息、200w的交通信息、16w的酒店信息、50w的中文网url...(想到这么多,暂时写着么多)
你以为爬取以上数据的爬虫真的很难吗?错错错!很简单(30行代码可以get all
这么简单,所见所得,难道你不想试试这种获取数据的方式吗?
你可以用十天左右的时间完成学习,给出学习资料:如何学习Python爬虫[入门篇]? - 学习编程 - 知乎专栏

第二是一些网站可以下载到的数据
(1)、数据分析报告,数据报告,数据圈论坛
(2)、海量数据免费下载
(3)、Datasets | Kaggle
(4)、国云数据市场
(5)、数据包下载列表
(6)、微盛投资:沪深市场5分钟数据 wdz格式 转 txt、通达信,大智慧dad,飞狐dad,钱龙,同花顺,csv,dad,lc5,tdx,nmn,sql等
(7)、国家地球系统科学数据共享平台全球变化研究出版数据直接下载
(8)、中华人民共和国国家统计局>>统计数据
(9)、分类: 地球物理相关资源
(10)、国家数据
(11)、产业数据_统计数据
(12)、百度数据开放平台

第三是朋友共享
多接触一些做数据爬虫的朋友,很多热爱爬虫的朋友只是热爱爬虫爬数据但是不知道如何分析,如果有机会大家都是愿意分享出来给朋友分析的。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:
帖子:24326
精华:1
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP