如何对分析师预期数据进行建模？—基于贝叶斯方法的研究

导读

1、作为西学东渐--海外文献推荐系列报告第三十一篇，本文推荐了Bew, David and Harvey等人于2019年发表的论文《Modeling Analysts’ Recommendations via Bayesian Machine Learning?》。

2、机器学习应用于投资领域存在着众多痛点，但不可否认的是机器学习方法能够更有效的处理许多之前难以解决的问题。如本文应用IBCC方法对分析师预期数据进行建模，为投资者利用分析师预期数据提供了一个新的方法与视角。
3、文章使用分析师预期数据作为模型输入，分析师推荐后股票收益率作为预测标的，应用IBCC构建了一个高效的预测模型。我们发现所有应用IBCC方法构建的多空投资组合表现均优于比较基准。同时Both类策略即当经纪商的推荐和IBCC模型预测结果一致时构建的组合表现是最好的。
4、本文尝试在企业流动性、交易规则、状态变量阈值与持仓长度四个方面进行稳健性检验，相关测试结果均显著，也使得结果更具可信性。
风险提示：文献中的结果均由相应作者通过历史数据统计、建模和测算完成，在政策、市场环境发生变化时模型存在失效的风险。

一、引言
2009年，一项特殊的科技项目“行星分类”正式启动。这个项目设立的目标之一是识别出新的超新星，为此项目组邀请了大量的天文学家参与此项目。这些天文学家被要求依照下述标签为一个行星确定分类：1）很可能是超新星；2）可能是超新星；3）不可能是超新星。同时项目组也根据加州理工学院帕洛玛提出的瞬态因子光谱分析给出了官方分类。一个至关重要的问题是：在某一时刻，可能会有众多天文学家对同一行星进行分类，那么如何将这些分类进行融合呢?一个简单的方式是将分类直接均分，但显然这种方法是不完美的(平均法可能会丢失许多信息);另一种可能的方式是“少数服从多数”，即按照支持人数最多的分类确定最后的标签。然而，这种方法与平均法存在一个共同的问题：忽略了不同天文学家之间的技能差异。
那么有没有办法建立一个考虑了天文学家技能差异的融合系统呢？特别地，我们希望这个系统是动态的，可以随着时间更新天文学家们的技能水平。由Ghahramani和Kim(2003)提出的独立贝叶斯分类器组合(Independent Bayesian Classifier Combination,下文简称为IBCC)机器学习方法完美的解决了这个问题。辛普森等人(2013)利用IBCC对“行星分类”项目数据进行了分析，实验结果令人惊叹。他们发现，通过IBCC方法可以大幅提升分类正确率。在允许10%错误率的情况下，使用IBCC方法的正确率从65%上升至97%。
同时我们发现在评估分析师意见时，投资经理面临的问题和行星分类有着惊人的相似之处。与“行星分类”项目类似，投资经理面对着成千上万的对象（上市公司）和成千上万的天文学家（分析师）。“行星分类”项目中的分类机制（即：1、很可能是超新星；2、可能是超新星；3、不可能是超新星）与买进、持有和卖出十分相似。此外，分析师之间的技能水平也存在着差异。因此，鉴于IBCC方法在“行星分类”项目中大幅提升了正确率，本文将IBCC方法拓展到投资领域，具体用于分析师推荐数据的模型建立中。目前已有许多文献针对分析师推荐数据进行了研究，但我们的文章（据我们所知）是第一篇将IBCC方法应用于分析师推荐数据建模问题的文章。
IBCC在大规模机器学习问题中应用广泛的主要原因是：IBCC提供了一种可拓展的方法，可以将不同来源或不同组的单一分类器结果进行融合。这个特征也使其成为融合不同分析师推荐数据的理想工具。由于需要融合的数据源众多，如何避免过拟合是一个需要重要的考虑因素。事实上，由于贝叶斯模型并不存在过多需要点估计的参数，陷入过拟合的可能性会小很多。在贝叶斯模型中我们应用所有未知数的联合后验分布来描述不确定性。在预测时，需要对这个联合后验分布进行积分，这个过程中我们不需要对参数给出固定的点估计。但贝叶斯方法一大缺点为计算复杂度较高。因此，本文采用了变分近似对传统贝叶斯方法进行改进，这种方法在计算上十分高效。另外虽然我们的方法是可以对每个分析师或任意分组级别进行建模的，但目前我们能够得到的报告都以经纪商（即分析师被雇佣的公司）为单位发布，因此本文将分析师推荐数据按经纪商进行分组。
我们发现即使拥有了大量的数据和复杂的机器学习模型，预测股票收益率依然很困难。因此我们的主要目标是给出一个整体的预测模型，其中每个经纪商的权重由经纪商历史推荐数据的长度和质量决定。本文研究结果表明当经纪商的推荐结果与使用IBCC获得的预测一致时，投资组合表现最佳。这个规律不仅存在于多头、多空与空头投资组合，在我们所进行的各种稳健性检验中也十分明显。本文结果为基金经理们（包括量化基金经理和主动管理基金经理）提供了一种利用机器学习进行投资决策的框架。
本文架构如下：
第二部分叙述了构建模型所需的数据，重点讨论了数据的特性，如数据的稀疏性、相关性等。
第三部分详细介绍了IBCC模型，并对贝叶斯框架中先验分布和超参数的选择进行探讨。
第四部分解释了如何利用变分近似法进行计算，这个方法极大的提升了模型的计算效率。
第五、六部分给出了实证结果和一系列稳健性检验。最后第七部分给出了本文结论并提出进一步研究的建议。
二、数据
本文选用的模型属于机器学习中的有监督模型。其中模型输入数据为分析师推荐数据，而预测标的（即输出数据）是在分析师推荐之后该股票(或股票相对于基准）的收益率。我们希望以分析师推荐数据为基础，利用IBCC方法对股票收益率进行预测。
2.1
输入数据：分析师推荐数据
我们采用了Thomson Reuters I/B/E/S数据库中分析师关于个股和行业的推荐数据，该数据库涵盖了几乎所有可得的分析师推荐数据。虽然不同分析师的评级方法不同，但整体上来讲分析师的推荐可映射到五个分类：强劲买入、买入、持有、表现不佳和卖出。
分析师推荐数据和我们常用的金融数据有两个很明显的不同。首先，分析师推荐数据并不是以固定的频率观察到的，它的观察值一般是不可预测的离散日期的数据。其次，推荐数据不是定量数据，而是分类数据。这使得它们更适合被应用于分类模型而非回归模型。此外，Thomson Reuters数据库有以下几个特点：
1) 高维数据：数据库是由成千上万的分析师对于成千上万只股票的推荐数据构成的，因此具有较高的维度。
2) 稀疏性：通常只有少数分析师会在某一天就某只股票给出建议，这就造成了数据十分稀疏。
3) 相关性：我们认为分析师的推荐数据在统计上是相关的，原因如下:
  横断面相关：分析师接触到的信息通常是相关的。因此即便他们的决策过程是独立的，也能得出相同或相似的结论。
时间序列相关：分析师的观点通常是逐渐更新的，并且分析师经常重申他们之前的建议。这就导致了数据存在序列相关性。同时分析师之间的群体行为也可能产生序列相关性(例如，一些分析师率先提出观点，另一些分析师随之提出观点)。
4）缺乏一致性: 虽然Thomson Reuters数据库将分析师的推荐映射到了五个分类，但对许多分析师来说常用的分类只有其中的几类。例如一些分析师只给出买入、持有这两个评级。本文将分析师推荐数据分类中的“强劲买入”、“买入”合并标记为买入，“表现不佳”、“卖出”合并标记为卖出。同时将没有推荐数据的值标记为缺失（Missing）。这意味着我们有了四类标签：买入、持有、卖出和缺失，即对于任意的分析师（或经纪商）k，给出的推荐结果Bk有缺失(0)，持有(1)，卖出(2)与买入(3)四种取值。最后，我们注意到推荐数据的分布极不均衡，这可能与分析师对于卖空评级的固有偏见有关。
在传统的贝叶斯模型中，针对这四类数据特征需要分别设立一个概率分布来建模。而我们的IBCC方法有下面三个优点：1）IBCC可以同时解决所有问题，并且保持了较快的计算速度；2）模型可以根据当前的信息进行动态调整，同时能够进行实时计算；3）IBCC模型允许容纳之前的信息，以便在需要时，模型可以由观测数据之外的信息来进行调整。
2.2
预测标的：推荐后股票收益率
本文研究的预测标的为分析师推荐后该股票在未来某个时间范围内的收益率。由于IBCC模型需要预测标的数据形式为分类数据，我们首先将收益率（本文采用超额收益率）转换为分类数据，转换步骤如下：

上文我们成功将股票收益率数据处理成IBCC模型适用的预测标的形式。下面我们对研究的一些参数进行设定：
研究时间为2004.1.1-2013.1.1
所选股票主要分布在欧洲部分地区，如奥地利，比利时，捷克共和国，塞浦路斯，丹麦，芬兰，法国，德国，希腊，匈牙利，爱尔兰等泛欧地区，意大利，卢森堡，荷兰，挪威，波兰，葡萄牙，俄罗斯，西班牙，瑞典，瑞士，土耳其和英国。
  选用的基准为道琼斯欧元斯托克斯指数（Dow Jones Euro Stoxx Index）。
同时我们将分析师按公司雇主（即经纪商）进行分组。需要明确的是，IBCC模型是可以应用于个人分析师级别或经纪商级别的，但本文仅研究经纪商级别。
图表1展示了我们汇总得到的部分数据。数据集总共有105,319行，每一行汇总了347个经纪商的推荐数据，理论上应该有36,545,693个数据。然而实际上，我们只有116,220个数据是非空的，意味着99.7%的数据对应的标签是“Missing”。这表明数据具有极端的稀疏性，也是IBCC方法分析的核心之一。

三、IBCC模型：先验概率与参数构建
IBCC模型是一个全概率模型，使用的数据为分类数据。如图表1所展示的那样，每行包括：1）某日各家经纪商的推荐数据（输入数据，取值为{0,1,2,3}，分别代表缺失、持有、卖出与买入）；2）股票收益率的状态变量（预测标的，取值为{0,1,2}，分别代表下跌、波动、上涨）。

最后需要注意的是：IBCC没有在类别数据中进行排序。即模型只给出了一组标签（分析师的推荐）如何和另一组数据（股票收益率）相关联。同时数据的高维度和稀疏性意味着用其他可选的相关模型（如copulas）是不可行的。IBCC模型假设条件独立从而处理我们特殊的数据，提供了可拓展且计算上高效率的方法。IBCC的这一关键特性是其在大型贝叶斯机器学习应用中十分流行的原因之一。
四、变分近似
4.1
变分贝叶斯推断
在本节中，我们将介绍变分贝叶斯推断，也称为变分贝叶斯(VB)。借鉴Bishop(2006，第10章)、Blei，Kucukelbir和McAuliffe(2018)的详细推导并结合Fox和Roberts(2011)的资料之后，我们给出将VB应用于IBCC模型的主要结果。这个模型从理论上来看是比较简单的，下面我们对其进行数学推导。下文我们使用的所有对数都是自然对数loge(.)。

4.2
IBCC模型中的变分近似
本文应用的IBCC模型和Kim和Ghahramani（2012）以及Simpson等人的模型不同。首先，我们采用的是实时预测，时间一致性要求我们每次预测时仅使用已有的信息来建立模型。第二，除了最近期提出的推荐数据所对应的股票收益率外，我们训练数据中的所有历史股票收益率数据都能被完全观察到，这主要是因为我们的训练数据都源于公开的可用的价格。最后，我们的主要目的是为了预测：

而不是后验概率。
虽然可以应用Simpson等人的做法，将明确的时间结构拓展进IBCC模型中，但本文选择基于随时间更新的静态模型来进行研究，这种方法相对来说更简单。具体而言，我们在每个评估时间点计算分析师推荐数据和股票收益率取值数据，另外确保在最后的观察值和计算数据之间有Δτ的时间。对于用这种方法创建的每个训练数据集，我们计算式（4-10）的分布。同时我们所有的研究结果都通过滚动方式获得。
对于每个评估日期，我们都进行了扩展窗口和移动窗口分析。扩展窗口是计算从2004.1.1到评估日期的所有数据，而移动窗口是计算每个评估日期过去三年的数据。理论上，评估日期可以选择每一个工作日，但出于实际原因，我们将它设为每季度即3月、6月、9月和12月的第一天。

虽然这里我们推导了单个预测的估计过程，但实际上这个方法可以同时计算多个推荐的真实分布。同时VB的迭代过程类似于期望最大化算法（EM）的计算过程，但VB算法和EM算法目的其实完全不同：EM是通过最大似然函数来获得参数的点估计，但VB提供了分布的全局近似。
4.3
从预测概率到投资决策

参数c和k都会对交易规则造成影响，但它们的影响是不同的。参数c影响R变量的条件概率和无条件概率的比较。因此，在保持k = 1固定的同时增加c意味着需要推荐数据产生更高的信息值才会采取Go_Long（Go_Short）决策。相反，参数k的大小影响R变量三个取值的条件概率和之间的比较，但与无条件概率无关。因此，在维持c=1的同时增加k会提高决策时采取Go_Long（Go_Short）行动所需的阈值。
五、实证结果
本文应用的IBCC方法有两个重要特征：
1）信息池的可选择性。本文的实证结果都是基于将分析师按经纪商（即他们声明的雇主或所属公司）进行分组而得到的。事实上，IBCC可以应用于不同的分组，例如可以选择在个体分析师上建立模型。这个特征意味着模型可以在全球行业分类或者任意级别上构建。当然一些更小的级别的模型计算复杂度可能会提升。我们在此报告中不对这一点进行深入研究。
2）我们应用的IBCC模型能够在不引入额外参数的同时将每个股票的多个推荐进行组合。具体地，我们将推荐数据按30天进行组合，即当一个新的推荐数据出现时，我们回顾过去30天的窗口内其他经纪商的最新推荐数据，将它们组合在一行数据中。这样做有利于增加训练数据中每一行出现的推荐数。
同时本文在三年的样本周期内构建模型，然后将此模型应用于下一季度的预测中。然后依据预测概率进行决策，本文假设c = k = 1，之后也会验证这两个参数对于结果的影响。
在评估方面，我们将IBCC的模型结果与最初的值（即遵循每个经纪商的推荐）进行比较。这个基准也称为Brok_Flw，主要用于评价IBCC模型的附加价值。Brok_Flw基准构造方法如下：
1.对于每个经纪商的买入(卖出)建议，创建一个持续60个工作日的+1（-1）信号。
2.将上面产生的信号按股票为单位进行加总，产生结果信号。
3.将结果信号的上限/下限设置为±10。例如将大于+10的值设置为+10。
4.对于只做多头的投资组合，只包括多头建议；相反，只做空头的投资组合，只包含空头建议。
5.我们按保持100美元的总风险敞口进行投资组合每日再平衡。
为了之后的结果展示，我们统一一些命名规则：
Brok_Flw_LS：这是前面提到的经纪商跟踪基准。
IBCC_Rol_LS：在这里，我们应用IBCC算法，拟合一个三年滚动窗口，包括多头和空头头寸。
IBCC_Exp_LS：和IBCC_Rol_LS类似，但估计是在扩展窗口上执行的。
Both_Rol_LS：表示当单个经纪商的IBCC的结果和Brok_Flw信号一致时才采取买入（卖出）操作。这可以有效的解决IBCC与Brok_Flw信号矛盾的情况。同时计算采取三年滚动窗口。
Both_Exp_LS：与Both_Rol_LS类似，但估计是在扩展窗口上执行的。
当仅允许多头（空头）时，使用L（S）代替LS。
图表4展示了多头和多空投资组合的自身表现和相对于Brok_Fl基准的表现。在全球金融危机期间，所有多头投资组合都表现不佳，但从2009开始，其表现优于DJEURST指数。多头IBCC策略与Brok_Flw_L基准表现差距不大，表现最好的往往是Both类（如Both_Rol_L、Both_Exp_L）策略。

所有应用IBCC方法构建的多空投资组合表现均优于Brok_ Flw_LS基准。同样，Both类的投资组合表现最佳。意味着当IBCC模型结果和经纪商推荐数据一致时进行操作的方法有助于帮助投资经理提升管理业绩。
图表5，图表6中提供了分年度的所有多头，多空和空头投资组合的结果。Brok_Flw_S基准和两种空头IBCC策略均为亏损，因此我们不关注他们的直接表现。值得注意的是，Both类的空头投资组合依旧表现更好，与之前在多头和多空的投资中的结果一致。图表7展示了空头投资组合的结果。

六、稳健性检验
6.1
稳健性检验-企业流动性的影响
我们的IBCC模型可能存在一个潜在的问题，即倾向于支持那些推荐了规模小、知名度低的股票的经纪商的建议，这会导致规模偏差。图表8的结果表明Brok_Flw_L投资组合持有的股票规模比IBCC多250亿美元。

   为了排除这种影响，我们按市值大小将股票分为两组，并在这两组中进行测试。根据图表9展示的两组推荐数据数量，可以看出发现两组数量是差不多的。

图表10展示了多头和空头组合的回测表现。图表11为两个投资组合的市值分布。根据图表10、11我们可以得出结论：IBCC在按市值划分的两组股票中都能起作用，我们得到的结果不是因为规模偏差。

6.2
稳健性检查-交易规则的影响
上文我们假设c = k = 1，并以此选择交易行为。本节我们探讨不同c和k的影响。这里测试了对于多头组合的影响。图表12展示了维持k=1改变c的结果，图表13展示了维持c = 1改变k的结果。
当k=1改变c的结果表明：随着c的增加，alpha和beta值都有所增强。维持c = 1改变k时，结果变化的并不显著。但正如预期的那样，我们观察到随着k的增加换手率会增加。

6.3
稳健性检查-状态变量阈值的影响
上文我们在股票收益率状态变量构建中将阈值设为5%。在这里我们探讨1%和10%的阈值变化对我们研究结果的影响。从图表14的多头和空头投资组合结果中，可以看出：
与之前一样，Both类策略（多头和空头组合）在所有阈值上均优于相关的Brok_Flw基准。
对多头投资组合而言，4%-6%为最佳阈值，尤其在的值上表现特别优异。
对于空头投资组合而言，稍小的阈值即2%-3%结果会更好一些。但我们也发现当阈值为2%-3%时，t值都不显著。我们认为这可能是由于较小的阈值会导致较大的抽样误差，若样本中存在更多Price_Down股票收益率数据取值可能会缓解这种情况。

6.4
稳健性检查-持仓长度的影响
上文我们取持仓长度为60天，本节我们测试不同持仓长度对多头组合的影响。从图表15可以看出
持有期越短，表现越好，较短的持有期增加了收益。
Both类投资组合再次成为表现最好的投资组合。
IBCC的表现比Brok_Flw_L基准稍逊。

七、结论
本文叙述了IBCC机器学习方法在投资经理的投资流程中的一种应用方式，从实证结果来看效果十分优异。我们将变分近似与IBCC方法相结合，用于建立分析师推荐数据的模型，这种方法大幅度提升了计算效率。同时我们发现，Both类策略即当经纪商的推荐和IBCC模型结果一致时采取买入/卖出等操作的效果是最好的。
与其他模型（例如，copula模型）相比，IBCC模型的一个重要优点是其可扩展性。文中我们将分析师推荐数据按经纪商（即所属公司）进行分组，但实际上IBCC可以用于个别分析师级别或任意级别的数据处理中。同时，我们的模型实现了实时预测。
然而，IBCC依旧存在着许多缺点。例如IBCC所用的数据都是分类数据因此不存在大小的概念。例如股票收益率状态变量的取值0,1,2，并不能进行大小比较。更重要的是，IBCC没有将推荐数据和股票收益率数据取值对等，这可能是Both类策略表现最好的原因。但为了让模型能够解决奇偶校验效应（parity effect），可能会降低模型的通用性。当然如果有足够多的数据可以解决这个问题，但实际上我们知道数据可得性往往不够。这都是未来有待解决的方向。

参考文献
【1】Bernardo, J. M., and A. F. M. Smith. Bayesian Theory. Hoboken: Wiley, 1994.
【2】Bishop, C. Pattern Recognition and Machine Learning. New York: Springer, 2006.
【3】Blei, D. M., A. Kucukelbir, and J. D. McAuliffe. 2018. “Variational Inference: A Review for Statisticians.” arXiv:1601.00670v9.
【4】Boyd, S., and L. Vandenberghe. Convex Optimization. Cambridge: Cambridge University Press, 2004.
【5】Bradshaw, M. T. 2011. “Analysts’ Forecasts: What Do We Know after Decades of Work?” SSRN, June 30, https://ssrn .com/abstract=1880339.
【6】Brown, L. 1993. “Earnings Forecasting Research: Its Implications for Capital Markets Research.” International Journal of Forecasting 9: 295–320.
【7】——, ed. 2000. I/B/E/S Research Bibliography. 6th ed. New York: I/B/E/S International Inc., 2000.
【8】Dempster, A. P., N. M. Laird, and D. B. Rubin. 1977. “Maximum Likelihood from Incomplete Data via the EM Algorithm.” Journal of the Royal Statistical Society, Series B (Methodological) 39 (1): 1–38.
【9】Fox, C. W., and S. J. Roberts. 2011. “A Tutorial on Variational Bayesian Inference.” Artificial Intelligence Review 38 (2): 85–95.
【10】Ghahramani, Z., and H. C. Kim. 2003. “Bayesian Classifier Combination.” Gatsby Computational Neuroscience Unit technical report no. GCNU-T. London, UK.
【11】Givoly, D., and J. Lakonishok. 1984. “Properties of Analysts’ Forecasts of Earnings: A Review and Analysis of the Research.” Journal of Accounting Literature 3: 117–152.
【12】Kim, H. C., and Z. Ghahramani. 2012. “Bayesian Classifier Combination.” Proceedings of the 15th AISTATS Conference.
【13】Lee, P. M. Bayesian Statistics: An Introduction. Chichester, UK: John Wiley, 2012.
【14】Levenberg, A., S. Pulman, K. Moilanen, E. Simpson, and S. Roberts. 2014. “Predicting Economic Indicators from Web Text Using Sentiment Composition.” International Journal of Computer and Communication Engineering 3 (2): 109–115.
【15】Levenberg, A., E. Simpson, S. Roberts, and G. Gottlob. “Economic Prediction Using Heterogeneous Data Streams from the World Wide Web.” In Scalable Decision Making: Uncertainty, Imperfection, Deliberation (SCALE), Proceedings of ECML/PKDD Workshop. New York: Springer, 2013.

风险提示：文献中的结果均由相应作者通过历史数据统计、建模和测算完成，在政策、市场环境发生变化时模型存在失效的风险。
注：文中报告节选自兴业证券经济与金融研究院已公开发布研究报告，具体报告内容及相关风险提示等详见完整版报告。

证券研究报告：《西学东渐--海外文献推荐系列之三十一》。
对外发布时间：2019年7月4日
报告发布机构：兴业证券股份有限公司（已获中国证监会许可的证券投资咨询业务资格）
--------------------------------------
联系人：徐寅
电话：18602155387,021-38565949
E-mail: xuyinsh@xyzq.com.cn
--------------------------------------
联系人：郑兆磊
电话：13918491550
微信：13918491550
E-mail: zhengzhaolei@xyzq.com.cn
--------------------------------------
更多量化最新资讯和研究成果，欢迎关注我们的微信公众平台（微信号：XYZQ-QUANT）！

如何对分析师预期数据进行建模？—基于贝叶斯方法的研究

浏览过的版块