【财通金工】“拾穗”多因子(十三):恼人的显著性检验:多因子模型中t值的计算

论坛 期权论坛 期权     
量化陶吧   2019-6-26 08:40   4884   0

投资要点
恼人的显著性检验:多因子模型中t值的计算
     在“拾穗”(一)中我们介绍了一种解析解,对带约束的加权最小二乘进行求解,但并未介绍如何对系数进行显著性检验。在“拾穗”(十)中,我们计算了不带截距项的回归模型中行业因子的t值,但是该模型中行业收益包含了市场收益,从而导致系数t值被显著高估。
    古典线性回归的基本假定有:线性假定、严格外生性假定、不存在完全共线性假定、无自相关性假定和同方差性假定。
    本文对普通最小二乘OLS、加权最小二乘WLS、带约束的普通最小二乘ROLS和带约束的加权最小二乘RWLS四种情况下,回归系数的拟合值和t检验值的计算进行详细介绍和推导。
    实证检验发现,在剥离了市场收益之后,行业因子的显著性将会显著降低,而风格因子的显著性并不受任何影响。此外,并非所有行业因子的显著性都保持在较高的水平,或许我们需要花费一定的精力去寻求更为有效的行业类别划分。
    财通金工提供自己编写的接口函数,感兴趣的读者可与我们直接联系获取。

指数风险预测
     所有样本指数在未来一个月的年化波动区间在19%-31%之间,相较上周明显有所缓和,当前市场处于窄幅震荡状态,趋势性暂不明显。
指数成分收益归因
     上周市场风格并没有呈现明显趋势,主要受消息面影响较多,表现最好的三只指数有以大盘为代表的上证50和沪深300成长指数,也有以中小盘为代表的创业板指,而表现较差的三只指数则更多地偏向于价值指数。

风险提示
    本报告统计结果基于历史数据,过去数据不代表未来,市场风格变化可能导致模型失效。
更多交流,欢迎联系财通金工张宇,联系方式:17621688421 (注明机构+姓名)
        由于本文公式较多,建议下载原文报告的PDF版本阅读,提高阅读效果。
欢迎在Wind研报平台中搜索关键字“星火“和”拾穗”,下载阅读专题报告的PDF版本。
     本期是该系列报告的第13期,主要就多因子收益分解模型中,解释变量系数的t检验值计算进行介绍。在财通金工“拾穗”系列(一)《带约束的加权最小二乘:一种解析解法》中,我们介绍了一种解析解法对存在完全共线性的回归模型进行求解,然而并未提及如何对系数的显著性进行检验。在“拾穗”系列(十)《行业的风格偏好:解析纯行业因子组合》中,我们对行业因子的t值检验并未剥离掉市场收益,从而高估了行业因子的影响能力,在本期讨论中我们将针对如上问题进行完善。
          恼人的显著性检验:多因子模型中T值的计算 1     在财通金工“拾穗”多因子系列(一)《带约束的加权最小二乘:一种解析解法》中,我们针对多因子收益分解模型中同时纳入截距项因子和行业因子造成的自变量因子之间的完全共线性问题,分别介绍了直接优化法、二次规划法和解析解法。研究结果表明基于解析解的方法更加准确且速度更快,然而这种方法需要研究者自己计算拟合系数,而且未对各系数的方差和t值的计算进行介绍。


       在“拾穗”多因子系列(十)《行业的风格偏好:解析纯行业因子组合》中,我们仅对不含截距项的风格拆解中行业收益和风格收益的t值进行了计算,但这种方法计算出的行业收益本身是包含市场收益的,而市场收益对股票收益率的解释程度非常高,从而会造成对纯行业因子的影响能力过度高估,如何计算剥离了市场收益之后的行业因子的t值检验量便成为财通金工思考的问题。作为对多因子模型细节进行探讨的系列报告,本期“拾穗”专题我们着重就多因子回归模型中普通最小二乘回归(OLS)、加权最小二乘回归(WLS)和带约束的普通/加权最小二乘回归(ROLS、RWLS)四种情况下拟合系数的t值计算进行总结介绍。
1.1  古典回归模型的基本设定及主要假设
        在本次讨论的开始部分,我们先来回顾古典线性回归模型的基本设定及其主要假设。假设Y表示被解释变量(T×1向量),X表示包含截距项的解释变量(T×K矩阵,其中K表示解释变量个数,包含截距项), β为解释变量对被解释变量的边际影响,eps表示模型的扰动项,那么线性回归模型可以表示为如下形式:
                  

       那么,古典线性回归模型的基本假定如下:
(1) 线性假定:回归模型中因变量Y是回归系数β的线性函数。注意,这里强调Y是β的线性函数,而非是自变量X的线性函数,也就是说自变量X仍然可以是类似于或者的形式。
(2)严格外生性假定:即指在给定自变量X的情况下,扰动项的条件期望为0:
  

       这意味着, eps必须均值独立于所有解释变量的观测数据,而不仅仅是同一观测数据中的解释变量。根据均值独立的性质,残差变量与所有解释变量都不相关,也就是说解释变量与残差项是互相正交的:


                     
事实上,均值独立仅要求E(eps|X)=c ,其中c为一个固定的常数,但不一定是0。但当回归方程中包含截距项时,将该假定设置为E(eps|X)=0实质上并不会带来过多限制,因为我们总可以将扰动项中的非零期望c纳入到常数项中,也就是我们只需要定义新的扰动项为eps-c,即可满足严格的外生性要求。然而值得注意的是,如果我们的回归模型中不包含截距项,那么残差与自变量之间并不一定满足相互正交的关系从而导致模型的可决系数R^2并不一定大于0而小于1,关于这一点的讨论可以参见财通金工“拾穗”系列(二)《你看到的不一定是你所想的:解密》。

(3)自变量不存在“完全共线性”:也就是说自变量X(T×K矩阵)是满秩矩阵,rank(X)=K,解释变量之间不存在严格的多重共线性,在部分文献中也称X是一个确定性矩阵。
(4)无自相关性:即不同样本的扰动项eps_i和eps_j之间互不相关,其协方差为0:


(5)同方差性:所有样本扰动项的方差都是相同的常数σ^2:


                     


如果假定(4)和假定(5)同时满足,那么就可称模型的扰动项为球形扰动项扰动项的协方差矩阵实质上是一个对角矩阵,其对角线上的元素完全相同为σ^2,而非对角线上的元素均为0,可表示为如下形式:
   

      (6)残差的正态分布假设:事实上,如果仅仅对模型的系数进行最小二乘拟合,那么上述假定就已经足够。但如果还需对回归系数进行统计检验的话,就需要另外再加上一个条件,即模型扰动项服从均值为0,方差为 σ^2*I_T的正态分布:



有了如上(1)~(5)的五个假设之后,即可推导出因变量Y的期望和方差:

如果假设(6)也同样满足,那么因变量Y 将满足如下的正态分布:


1.2  OLS模型中系数t值的计算
在了解了OLS回归模型的基本假定之后,接下来即可根据拟合系数的基本性质进行统计检验。假设
表示模型的拟合系数,
表示被解释变量的拟合值,e表示模型的残差项,那么有:
   

在普通最小二乘OLS回归中,拟合系数
可以表示为如下形式:
   


那么,结合上一小节中的推导,拟合系数
的均值和方差可以表示为:



由如上公式可知,通过OLS拟合得到的系数
是真实系数的无偏无计量(期望值等于真实值),而该拟合系数的方差为σ^2(X'X)^-1。如果加上假设(6),那么即可推导出
服从如下正态分布:

   


然而需要注意的是,在上述公式σ^2表示总体扰动项eps的真实方差,而由于总体扰动项eps是不可观测的,因此其真实方差仍然是未知的,我们只能将样本残差近似地看作是总体扰动项eps的实现值,从而计算e的样本方差作为总体方差的估计量:



其中,T-K表示自由度,为什么除以T-K而非除以n 呢?这是因为残差变量e必须满足K个正规方程X'e=0,因此只有其中的T-K个e_i是相互独立的。经过这样校正后,σ^2才是真实方差σ^2的无偏估计量,即:



因此,拟合系数
的方差的估计量即可表示为:
  


可以证明,它是
真实方差的无偏估计量:
           

最后,我们引入如下引理(由于篇幅限制,此处不作证明,感兴趣的读者可与财通金工进行进一步交流):
  


现在即可构建如下统计检验量,对模型的拟合系数进行显著性检验:
  


其中,
为待检验的值,假设我们要检验拟合系数β是否显著地异于0,那么此时
取0。可以证明上述统计检验量t将服从自由度为T-Kt 分布:



其中,


根据t分布的定义可知,如上的t值服从自由度为T-K t 分布,证明完毕。
1.3  WLS模型中系数t值的计算

在上一小节中我们介绍了OLS模型中拟合系数
的性质及其t 值的计算,然而在多因子模型的收益分解中,大市值股票的残差波动会显著小于小市值股票的残差波动,因此1.1 小节中的假定(5)扰动项的同方差性便不再满足。但是如果我们已知扰动项方差的形式,即可采用加权最小二乘法(Weighted Least Square)对该模型进行求解,本小节我们将对WLS模型中的系数的拟合及t值的计算进行介绍。

如果扰动项不服从同方差分布,那么每个扰动项的方差将不再相同,因此其协方差矩阵即可表示为如下形式:
  

需要注意的是,扰动项的协方差矩阵在非对角线上的元素仍然为0,这意味着模型中仍然不存在自相关性。而与OLS假定不同的是,对角线上的元素将不再是相同的σ^2,而是每个扰动项的方差各不相同。
假设我们已经知道扰动项的协方差矩阵可以表示为如下形式:



那么,WLS的拟合系数
即可表示为:
                    


同样的,拟合系数
的均值和标准差可以表示为如下形式:



另外值得注意的是,OLS中SSR=e'e的计算不同,在WLS回归中,SSR=e'We,也就是要考虑到每个数据变量的权重影响。因此,扰动项方差的估计量即可表示为:



因此在WLS回归模型中,我们可以构建如下统计检验量对系数的显著性进行检验:



在对股票市场的收益进行分解时,我们通常认为股票的残差波动率与其市值平方根成反比,大市值股票的残差波动更小,而小市值股票的残差波动更大。反映到回归模型的设定上,大市值股票的权重就要更高,而小市值股票的权重相对就更低。图1展示了某个回归截面期的股票特质收益波动率与其市值平方根倒数之间的关系,可以看到二者之间呈现明显的正相关关系,因此:
                        


   

其中,MV_i表示股票i的市值大小。


1.4  带约束的普通最小二乘ROLS模型系数t值的计算
到目前为止,我们介绍的OLS模型和WLS模型中,自变量因子之间均不存在完全共线性,因此可以直接采用解析解对拟合系数及其t值进行求解。然而前面提到在USE4模型中,国家因子的引入使得截距项与行业因子之间存在完全共线性,从而导致自变量矩阵X不再可逆,传统的解析解求解法将会失效。
在财通金工“拾穗”系列(一)《带约束的加权最小二乘:一种解析解法》中,我们介绍了另外一种解析解方法,通过一种简单的线性变换将带约束的加权最小二乘法转换为不带约束的加权最小二乘法,从而仍然可以采用解析解法对模型的拟合系数进行求解。然而在该篇讨论中,我们并未对模型的显著性检验进行探讨,在接下来的两个小节中我们将就带线性约束的最小二乘(包括普通最小二乘和加权最小二乘)中各系数的t检验值的计算进行介绍。
同样的,假设模型设定为:


其中,Y为T×1向量,X为T×K矩阵,β为K×1向量,R为q×K矩阵,r为q×1向量,q表示线性约束的个数。由于普通最小二乘回归的目标是最小化残差平方和,因此该目标的拉格朗日表达法可以表示为:


将上式对
和λ计算偏导数,即有:



将上述两式表示为矩阵形式,有:


将上式进行简化为如下形式: Cd=v ,其中:     


那么对C矩阵((k+q)×(k+q)矩阵)取逆,即可得到模型的拟合系数:  


由于r 是一个确定性的数,因此其方差为0,与X'Y的协方差也为0。在OLS模型中:


因此,参数的方差即可表示为如下形式:


进一步地,我们将C^(-1)矩阵进行分解,将其表示为如下形式:



其中,C_11为左上角的K×K 矩阵。那么,将其代入到参数的方差中即有:


       由于:





将二者进行相乘即可得到单位矩阵I_(k+q)*(k+q),那么就可以得到如下几个式子:



对上面的第一个式子左右两边分别左乘(σ^2)*C_11,有:



由前面的第三个式子可知,C_11*R'=0,因此上式左边的第二部分等于0,由此可对拟合系数的方差可以进行进一步的简化:


最后,我们可以构建如下t 检验统计量,对带线性约束的普通最小二乘模型的t值进行计算:

   
1.5  带约束的加权最小二乘RWLS模型t值的计算
      如果模型中的扰动项存在异方差性,那么就需要采用加权最小二乘对系数进行拟合,其基本思路与上一小节的推导完全一致。假设模型设定为:



其中,YT×1向量,XT×K 矩阵,β为K×1向量,Rq×K 矩阵,rq×1向量,q为线性约束的个数。与普通最小二乘不同,加权最小二乘回归的目标是最小化残差加权平方和,因此该目标的拉格朗日表达法可以表示为:


将上式对
和λ求偏导数,有:


将上面两式表示为如下的矩阵形式:


将上式简化为如下形式: Cd=v  ,其中



那么对C 矩阵取逆,即可得到模型的拟合系数:


由于r 是一个确定性的数,因此其方差为0,与X‘Y的协方差也为0。在WLS模型中:


因此,其方差即可表示为:


进一步地,我们将C^(-1)矩阵进行分解,将其表示为如下形式:



其中,C_11为左上角的K×K 矩阵。那么,将其代入到参数的方差中即有:


由于:


将二者进行相乘即可得到单位矩阵I_(k+q)*(k+q),那么就可以得到如下几个式子:


对上面的第一个式子左右两边分别左乘(σ^2)*C_11,有:


由前面的第三个式子可知,C_11*R'=0,因此上式左边的第二部分等于0,由此可对拟合系数的方差可以进行进一步的简化:



最后,我们可以构建如下t 检验统计量,对带线性约束的普通最小二乘模型的t 值进行计算:


1.6  带约束的加权最小二乘拟合实证
到目前为止,我们已经介绍了普通最小二乘、加权最小二乘、带约束的普通最小二乘和带约束的加权最小二乘四种情况下,回归系数的拟合值及对应的统计检验量,财通金工提供我们自己编写的接口函数,感兴趣的读者可与我们直接联系获取。

在“拾穗”系列(十)《行业的风格偏好:解析纯行业因子组合》中,我们对不带截距项的模型中行业因子和风格因子系数的t值进行了检验。然而,不加截距项的回归模型中,行业的收益等于纯行业因子的收益与市场收益之和,而市场收益是股票收益的强解释变量,因此会造成对行业因子解释能力的高估。表1比较了带截距项和不带截距项的回归中,行业因子和风格因子的t值绝对值平均以及t值绝对值大于2的次数占比。



由表1可知,在剥离了市场收益之后,行业因子的显著性将会明显降低,而风格因子的显著性并不受任何影响。此外,并非所有行业因子的显著性都保持在较高的水平,或许我们需要花费一定的精力去寻求更为有效的行业类别划分。
1.7  小结
本期“拾穗”系列专题,我们对多因子收益模型中解释变量系数的t值计算进行介绍,主要从普通最小二乘、加权最小二乘、带约束的普通最小二乘和大约数的加权最小二乘四种情况出发进行总结,主要结论如下:
    1) 在普通最小二乘回归中,回归系数的拟合值和方差分别为:


    2)在加权最小二乘回归中,回归系数的拟合值和方差分别为:



   3)在带约束的普通最小二乘回归中,回归系数的拟合值和方差分别为:


    4) 在带约束的加权最小二乘回归中,回归系数的拟合值和方差分别为:

温馨提示:财通金工提供我们自己编写的接口函数,感兴趣的读者可与我们直接联系获取。
(后续章节具体内容可参见报告PDF版本)
风险提示 2本报告统计结果基于历史数据,未来市场可能发生重大变化。

报告原文地址及相关报告
原始报告:
证券研究报告:“拾穗”多因子系列(十三):《恼人的显著性检验:多因子模型中t值的计算》
发布时间:2019年6月25日
分析师:陶勤英 SAC证书编号:S0160517100002
联系人:张宇 17621688421

下载地址:
链接:https://dwz.cn/ruXAFVKE  提取码:o5zc
欢迎在Wind研报平台中搜索关键字“星火“和”拾穗”,下载阅读专题报告PDF版本

星火”系列专题报告:
【巡礼篇】财通金工一、二季度多因子系列专题汇总
“星火”多因子系列(一):Barra模型初探:A股市场风格解析
“星火”多因子系列(二):Barra模型进阶:多因子模型风险预测
“星火”多因子系列(三):Barra模型深化:纯因子组合构建
“星火”多因子系列(四):基于持仓的基金业绩归因:始于Brinson,归于Barra
“星火”多因子系列(五):源于动量,超越动量:特质动量因子全解析
拾穗”系列专题报告:
“拾穗”多因子系列(一):带约束的加权最小二乘拟合:一种解析解法
“拾穗”多因子系列(二):你看到的不一定是你所想的:解密R方
“拾穗”多因子系列(三):行业因子选择:中信一级还是申万一级?
“拾穗”多因子系列(四):总市值、流通市值、自由流通市值:谈谈取舍
“拾穗”多因子系列(五):数据异常值处理:比较与实践
“拾穗”多因子系列(六):因子缺失值处理:数以多为贵
“拾穗”多因子系列(七):从纯因子组合的角度看待多重共线性
“拾穗”多因子系列(八):非线性规模因子:A股市场存在中市值效应吗?
“拾穗”多因子系列(九):牛市抢跑者:低Beta一定代表低风险吗?
“拾穗”多因子系列(十):行业的风格偏好:解析纯行业因子组合
“拾穗”多因子系列(十一):多因子风险预测:从怎么做到为什么
“拾穗”多因子系列期中总结
“拾穗”多因子系列(十二):权重复刻:指数成分股调整,股指期货分红点位测算更新

法律声明

根据《证券期货投资者适当性管理办法》(2017年7月1日正式实施),本订阅号发布的观点和信息仅供财通证券专业投资者参考,完整的投资观点应以财通证券研究所发布的完整报告为准。若您并非专业投资者,请勿订阅或转载本订阅号中的信息。若您并非财通证券客户中的专业投资者,为控制投资风险,请取消订阅、接收或使用本订阅号中的任何信息。
本订阅号旨在沟通研究信息,分享研究成果,所推送信息为“投资参考信息”,而非具体的“投资决策服务”。本订阅号推送信息仅限完整报告发布当日有效,发布日后推送信息受限于相关因素的更新而不再准确或失效的,本订阅号不承担更新推送信息或另行通知义务,后续更新信息请以有关正式公开发布报告为准。
市场有风险,投资需谨慎。在任何情况下,本订阅号中的信息所表述的意见并不构成对任何人的投资建议,订阅人不应单独依靠本订阅号中的信息而取代自身独立的判断,应自主做出投资决策并自行承担投资风险。本资料接受者应当仔细阅读所附各项声明、信息披露事项及相关风险提示,充分理解报告所含的关键假设条件,并准确理解投资评级含义。在任何情况下,信息发布人不对任何人因使用本订阅号发布的任何内容所引致的任何损失负任何责任。






分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:1505
帖子:303
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP