“拾穗”多因子系列(二):你看到的不一定是你所想的:解密R方

论坛 期权论坛 期权     
量化陶吧   2019-2-25 17:30   11485   0
投资要点
你看到的不一定是你所想的:解密R方
R方并非总是大于0而小于1,在不加截距项的回归中,R方可能出现负值。当没有足够的信息显示数据穿过原点时,财通金工建议统一在模型中加上截距项。
总R方和相对R方仅在于计算方法不同,前者关注股票的总体波动,后者关注股票相对于市场均值的波动,二者仅在于计算方法的不同,对于模型的拟合好坏并无区分。
财通金工多因子模型对于不同样本股的拟合优度不同,Wind全A滚动12个月相对R方均值为21%,沪深300指数为42%,中证500指数为24%。
在一元线性回归中,R方等同于自变量与因变量相关系数的平方。在单因子测试中,即为IC的平方。
一周行情回顾
上周市场主要指数普遍上涨,中小板、成长类股票上涨势头仍然强于大盘、价值类股指。
行业方面,在所有29个中信一级行业中,所有行业均取得正收益,尤以非银金融和通信行业的表现最为亮眼。
市场风格解析
上周市场风格与前一周保持类似,高波动、高Beta的股票表现更为优异。规模因子连续两周收益为负,可见市场在近期仍然更为偏爱小盘股票。
指数风险预测
所有样本指数在未来一个月的年化波动区间在15%-24%之间,相较上周略有下降,其中以中小板股票、成长类指数的风险较大,而偏大盘、价值类股票风险较小。
指数成分收益归因
上周表现最好的两只创业板指数,由于其在规模因子上的较低暴露和在Beta及波动率因子上较高的暴露帮助其获得一个较好的收益。表现相对较差的三只指数均为大盘价值类指数,在规模和动量因子上暴露过高,拖累指数走势。
风险提示
本报告统计结果基于历史数据,过去数据不代表未来,市场风格变化可能导致模型失效。
更多交流,欢迎联系财通金工张宇,联系方式:17621688421(注明机构+姓名)
欢迎在Wind中搜索“星火“和”拾穗”多因子系列,下载阅读我们的专题报告。
在实际投资中,多因子模型被广泛地应用到资产定价、绩效归因、风险控制、组合优化、基金评价及资产配置等各个领域,一套完整、精细的多因子系统成为每位量化研究者必备的工具。“做最实用的研究”,是财通金工给自己的定位我们将在之后的系列报告中,就投资者们最关心也最容易忽略的很多细节问题进行探讨,介绍我们在实际应用中遇到的问题和思考,以飨读者。
我们为本系列报告取名“拾穗”。一周市场风云变幻,和风细雨也好,狂风骤雨也罢,都留下一地故事等待梳理。作为勤劳的搬运工,财通金工从量化视角出发对市场风格进行捕捉、对风险水平进行预测,既是希望能够如拾穗者般专心、踏实地做研究,也是祝愿各位投资者能够在市场收获满地金黄。
本期是该系列报告的第二期,主要围绕回归模型的拟合优度R方展开讨论。首先通过介绍R方的计算及其含义来比较加截距项与不加截距项对R方的影响,随后通过引入总R方和相对R方的概念解释了为何对于相同输入、相同回归的模型R方会出现不同的R方值,最后我们介绍R方与IC平方之间的等同性,由此引出R方命名的源起。
你看到的不一定是你所想的:解密R方1在计量经济学领域,R方和t值具有相同的地位,前者常用于对模型解释能力的评价,后者则更多地用于回归系数的显著性检验。尽管近年来这两个统计变量在学术界遭遇了很多挑战,但目前并没有更好的选择将其代替。很多研究者即便采用相同的因子计算、回归方法得到的却大相径庭,有的模型R方能达到40%,有些却仅有20%,这其中原因究竟如何,本文试图提供一些可能的答案。
1.1 一个误解:R方一定大于0而小于1吗?
R方一定大于0而小于1吗?财通金工给出的答案是:不一定。事实上在包含截距项的线性回归中,R方是介于0和1之间的,然而在不含截距项的线性拟合中,R方可能出现负值。关于这点,我们先从的R方计算方法说起。假设存在一个线性回归模型:
            Y=Xβ+u
在进行回归之前,通常需对模型作如下假定:
(1) 线性假定:因变量是回归系数的线性函数
(2) 严格外生性:在给定矩阵X的情况下,扰动项u的条件期望为一个常数(但不一定为0)
(3) 不存在严格多重共线性:自变量矩阵X是满秩矩阵
(4) 球型扰动项:扰动项满足同方差、无自相关等性质
其中需要特别注意的是模型严格外生性的假定,它意味着残差u必须均值独立于所有解释变量的观测数据,而不仅仅是同一观测数据的解释变量。此外,均值独立仅要求E(e_i|X)=c,此处c为一个常数,但不一定为0当回归方程中含有截距项时,E(e_i|X)=0的假设与其等于c的假设是一致的,因为这样只需将截距项减去常数c,即可得到一致的扰动项,但在不含截距项的回归模型中,残差项与自变量之间并不满足正交的关系。
有了如上假定之后,就可通过最小二乘拟合得到回归系数β_hat,因变量拟合值即可表示为:


由此可以定义模型的总平方和(total sum ofsquares, SST)、解释平方和(explained sum of squares)及残差平方和(residual sum of squares, SSR)分别为:



从直观上来讲,SST度量了因变量yi的总样本波动,SSE度量了拟合值yi_hat的样本波动,SSR度量了残差ui的样本波动。在包含截距项的回归模型中,可以证明三者之间存在如下关系:            
            SST=SSE+SSR
证明如下:


由模型严格外生性的假定可知,在包含截距项的回归模型中,残差的均值为0,且残差与自变量之间的协方差也为0,因此三者之间的恒等关系成立,由此就可推导出模型判定系数(又称可决系数)的计算公式:


可以看到,R方是可解释波动与总波动之比,它衡量的是y的样本波动中能够被x解释的比例,在包含截距项的回归模型中,它总是大于0而小于1的。然而在某些情况下我们希望施加如下约束:当x=0的时候,y的期望值为零,这种不含截距项的模型被称为过原点回归(regression through the origin),尽管这种情况在实际应用中较为少见。Wooldridge(2015)指出,在这种情况下,如果不做其他说明,R方是在计算SST时不消除y的样本均值而求得的,也就是说R方的计算公式变为:


与传统的R方计算相比,过原点回归的R方在分母上计算的是因变量的总波动,而不是相对于其样本均值的波动。之所以进行这样的处理,是因为采用传统的R方计算方法很容易出现负值,二者之间只有当因变量的样本均值为0的时候才相互等同。
由此可见,如果在模型构建前没有足够多的证据显示当自变量为0 的时候,因变量的期望值也为0,那么我们建议统一在模型构建中加上截距项。例如,在非线性规模因子的计算时,将对数市值的三次方对对数市值进行回归,加截距项和不加截距项对残差的影响非常明显。另外,在衡量风格因子的共线性程度计算VIF值时,我们也建议加上截距项。还有一个比较有意思的是,在Alpha因子挖掘的研究中,常需将目标因子对已知行业及风格因子进行中性化以剔除已知因子的影响,这种情况如果加上截距项就会与行业因子之间产生完全共线性,需要施加新的约束以得到唯一解。然而由于我们进行回归的目的仅仅是为了获得残差项,而是否加上截距项对于残差的影响并不大(在加入了行业因子的情况下),因此这种情况下我们认为不加截距项也是合意的。
到目前为止,我们讨论的回归方法都是普通加权最小二乘,这种方法对于所有的样本点赋予相同的权重。而在股票收益模型的拟合中,我们常采用加权最小二乘法,这种情况下模型的拟合优度实际上是OLS方法的简单变换:


其中,w_i表示单只股票的回归权重。另外,几乎在所有的计量经济学课本中都会提到应用的一个局限性:即当模型中加入的解释因子越多时,模型的R方就会越大,如果仅仅将R方作为模型评价的唯一标准,将会导致严重的过拟合问题,因此在实际研究中经常采用的是一种经过调整的R方:


其中,k为解释变量个数(包含截距项)。经过调整的R方对解释变量的个数进行一定的惩罚,当加入的因子不足以为模型带来足够的解释能力时,调整R方将会减少而非增大。

1.2 同样的模型,不同的评价:总R方和相对R方
由上一小节的分析可知,R方衡量的是所选因子对于股票收益在横截面上波动的解释能力,而波动又可分为总波动和相对波动,因此Barra的官方文档中就分别定义了总R方(Total RSquare)和相对R方(Relative RSquare)两种形式。具体来讲,总R方可以表示为:



当市场受系统性风险影响较大时,市场波动增大,总R方会明显增加。然而对于主动投资经理而言,相较于市场的总体波动,他们更关注的是市场相对于基准的波动大小,因此相对R方对于这部分的投资者而言意义更大。相对R方的计算方法如下:


其中w_n表示股票的回归权重,r_bar表示全样本股票的回归加权平均收益。与上一小节的分析结合我们可以看到,总R方的形式与过原点回归R方的计算一致,而相对R方与我们传统的R方表达形式一致。
通常来讲,我们总是希望所选因子对于股票收益的解释能力越强越好,即我们常常追求R方越大越好,然而Briner(2009)认为在模型构建中不应该一味地追求R方的大小,因为样本内的解释能力与样本外的风险预测之间尽管有一定的正相关,但这种相关关系远不如我们所预想地那样强。此外,Briner(2009)还为我们在使用R方进行模型评价时指出了以下几点:
(1)普遍来讲,减少估计样本的数量能够提高模型R方,因为拟合小样本总是比拟合大样本来得容易
(2) 在回归模型中,对少数部分的股票赋予更高的权重可以提高模型R方
(3) 如果模型对异常收益进行了过拟合,那么模型R方也会有显著的提升。

下面财通金工从实证角度来对比一下总R方和相对R方之间的区别到底有多大,图1展示了从2008.5.30-2019.1.31期间,月度回归的滚动12个月R方均值,具体的模型拟合方法可参见财通金工“星火”系列报告第一期及“拾穗”系列报告第一期。可以看到,全样本回测期间总R方均值达到43%,而相对R方均值为22%,二者之间相差较为明显。此外,当市场波动十分剧烈时(如2015年市场行情剧烈波动),模型的拟合优度显著高于横盘震荡的市场行情。


在财通金工多因子模型中,自变量因子被分为国家因子、行业因子和风格因子三大类,因此我们可以通过计算将不同类别的解释变量纳入回归时,模型解释能力的提升幅度来观察每类因子对于股票收益的解释大小。由于需要观察截距项因子(即国家因子)的解释能力,因此此处我们用总R方进行说明(因为对于仅包含截距项回归的模型而言,其R方为0)。由图2可以看到,当模型中仅加入国家因子时,模型的滚动R方均值为27%,当加入了行业因子时滚动R方均值达到37.5%,当再将风格因子加入时,模型滚动R方均值达到43.2%,每类因子都对股票的波动增加一定的贡献,其中以市场因子为主,其次为行业因子,最后为风格类因子。



在模型回归中,我们采用加权最小二乘法对股票特质收益的异方差性进行规避,在实际应用中普遍采用较多的是股票的市值平方根权重,即认为股票特质收益的波动与其市值平方根权重成反比。事实上,我们也可以采用股票市值权重进行加权回归。图3对比了采用普通最小二乘回归、市值平方根加权回归和采用市值加权回归三种方法得到的滚动12月R方均值,可以看到采用市值加权回归得到的普遍来讲要更高一些,究其原因很可能是大市值股票具有更为相似的波动方向,采用市值加权回归比市值平方根加权相比,对于大市值股票赋予的权重更大。


最后,我们观察一下多因子模型在不同样本股中的解释能力,图4展示了收益模型在沪深300、中证500和Wind全A指数中的拟合情况,此处展示的是相对R方,回测样本区间段为2011.1.31-2019.1.31。可以看到模型在沪深300中的拟合效果最佳,其滚动12月的相对R方均值达到42%,而在中证500指数中为24%,在Wind全A中为21%。造成这一结果的原因,财通金工认为一方面是因为沪深300指数成分股数量更少,拟合少数股票要比拟合多数股票的效果更好。此外,沪深300指数在风格上偏向大盘价值,其成分股的风格更为一致,跟随市场波动的联动性更强。


1.3 名字的源起:R方与IC的互通
本次专题讨论的最后一部分我们聊一聊R方名字的源起,此处R表示相关关系(Relation),因为在一元线性回归中,R方等同于自变量与因变量的相关系数的平方。在单因子测试的研究中,该相关系数也被称为因子的IC值,因此R方等同于IC的平方。具体证明如下:
在一元线性回归中,回归系数的表达形式如下:


那么,我们即可对SST进行简单的变换:



因此,即可得到模型的表达形式:

证明完毕。
(以下章节具体内容可参见报告PDF版本)
一周行情回顾2
市场风格解析及指数风险预测3
  指数成分收益归因4参考文献:
【1】“IntroductoryEconometrics: A Modern Approach”. Jeffrey M. Wooldridge, 5[sup]th[/sup] edition,2015.
【2】“The Barra EuropeEquity Model (EUE3)”Beat G. Briner, Rachael C. Smithand Paul Ward, 2009.

风险提示5本报告统计结果基于历史数据,未来市场可能发生重大变化。

报告原文地址及相关报告
原始报告:
证券研究报告:“拾穗”多因子系列(二):《你看到的不一定是你所想的:解密R方》
发布时间:2019年2月24日
分析师:陶勤英SAC证书编号:S0160517100002
联系人:张宇 17621688421

下载地址:
链接:https://dwz.cn/ruXAFVKE 提取码:o5zc

相关报告:
“星火”多因子系列(一):Barra模型初探:A股市场风格解析
“星火”多因子系列(二):Barra模型进阶:多因子模型风险预测
“星火”多因子系列(三):Barra模型深化:纯因子组合构建
“拾穗”系列(一):带约束的加权最小二乘拟合:一种解析解法

法律声明

根据《证券期货投资者适当性管理办法》(2017年7月1日正式实施),本订阅号发布的观点和信息仅供财通证券专业投资者参考,完整的投资观点应以财通证券研究所发布的完整报告为准。若您并非专业投资者,请勿订阅或转载本订阅号中的信息。若您并非财通证券客户中的专业投资者,为控制投资风险,请取消订阅、接收或使用本订阅号中的任何信息。
本订阅号旨在沟通研究信息,分享研究成果,所推送信息为“投资参考信息”,而非具体的“投资决策服务”。本订阅号推送信息仅限完整报告发布当日有效,发布日后推送信息受限于相关因素的更新而不再准确或失效的,本订阅号不承担更新推送信息或另行通知义务,后续更新信息请以有关正式公开发布报告为准。
市场有风险,投资需谨慎。在任何情况下,本订阅号中的信息所表述的意见并不构成对任何人的投资建议,订阅人不应单独依靠本订阅号中的信息而取代自身独立的判断,应自主做出投资决策并自行承担投资风险。本资料接受者应当仔细阅读所附各项声明、信息披露事项及相关风险提示,充分理解报告所含的关键假设条件,并准确理解投资评级含义。在任何情况下,信息发布人不对任何人因使用本订阅号发布的任何内容所引致的任何损失负任何责任。

分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:1505
帖子:303
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP