这个问题我可以答。
首先说结果:这其中有些数据库是有问题的,不要盲目拿起来就用。下面细细谈:
优点已经说的够多了,我因为工作原因深度玩了其中的几个数据库好几年,可以谈谈它们的缺点。做实证研究的,首先要死磕数据。
WRDS上关于公司的数据比如Compustat的财务数据,Execucomp database的CEO Compensation数据,Thompson Reuter insider trading database, Riskmetrics上的Boards of directors数据,还有Blockholder ownership database, 如此等等,很多研究者都直接拿来用,但是从没有过问过这些数据怎么来的、是否可靠。
这些数据的来源都是SEC EDGAR database,每个上市公司按照规定必须提交各种数据给SEC,这些各式各样的form就是WRDS上这些数据的来源。比如Execucomp dabtase的数据来源是proxy statement (DEF 14A), insider trading 的数据来源于form 3/4/5,等等。
我有很长时间都在死磕SEC EDGAR上的这些海量文件(虽然绝对大小相比较tick 数据就小多了,但是另一个维度的复杂度就高多了,难处理),我把我的结果跟从WRDS上得到的数据进行对比,WRDS上的这些数据库错误不少。如果只是随机的错误,那么我们可以把这些偏差当作噪声,但是如果有大面积的遗漏或者采集方法有问题,那么就是系统性错误。不夸张的说,所有基于这些数据库的论文都要受影响(可以甩锅)。
这种系统性错误的确是存在的。比如根据我的结果,insider trading 这个数据库遗漏了大量数据,有很多存在于SEC EDGAR的insider trading数据但是Thomson Reuter上没有,这些遗漏大到无法忽视。再比如Execucomp database更新的时候会修改/删改历史数据(现在已经更正,这个比较silly的错误怎么发现也是个学术界八卦,按下不表)。这些错误都会直接影响到实证结果是否成立,或者是否biased。
这些经验直接导致了我绕过(部分)这些已有数据库,而直接从这些raw filing上抓取数据建立自己的数据库。效果很不错。对我这种数据洁癖的人用起来也更加放心。每个observation我都能找到出处。
最后,WRDS的优点有一点漏谈了,就是ta能提供完整的SAS接口,同时可以用终端工具登录到主机调试。数据量如果很大、操作反复而且复杂,这个功能相当方便。写完SAS程序然后就可以边玩边等结果了。
WRDS还有一个优点就是作为数据库vendor(本身不提供数据但集成数据), 有客服可以回答用户问题。所以可以经常去骚扰客服,基本问题他们还是可以回答的。
------补充----------
这些数据被各大数据提供商垄断、每年订购这些数据需要交高额的订购费。这些在我看来是毫无道理的,因为这些数据都可以通过技术(我已经有可工作的代码)从SEC上公开获得。一毛钱都不用花。
我曾经想把这些技术开源,或者做一个打破这些垄断制作开源(商业)金融数据库供所有人免费(低价) 使用。毕竟大部分国内外高校都无法负担这些昂贵的数据库,所以为这些高校提供低成本或者免费的数据方案,并且提供传统数据供应商暂无的Machine learning API接口,我觉得无论是社会价值和商业价值上前景都不错,也是比较有意义的事情。
但是好像也没有发现同道很热衷这件事情,毕竟是件吃力未必讨好的工作。虽然有可以工作的代码,但做成一个稳定运行的商业项目还是超出我个人时间/能力范围。如果有同道,欢迎站内。 |