【华泰金工林晓明团队】因子合成方法实证分析——华泰多因子系列之十

论坛 期权论坛 期权     
华泰金融工程   2019-1-16 00:45   7128   0
摘要
本文测试 6 种因子合成方法,发现最大化IC_IR及最大化IC法效果较好
因子合成是构建多因子选股模型的重要环节,可以提取出一组因子内的重要信息。本文对6种因子合成方法进行测试,从单因子测试结果看,最大化IC_IR及最大化IC法合成的因子效果较好,能大概率战胜等权复合因子。从复合因子稳定性看,除等权法外,主成分分析法得到的第一主成分复合因子最稳定。

因子合成的应用场景主要为降低因子共线性以及生成大类风格因子
因子合成的应用场景主要有两方面: 1. 将共线性比较严重的因子先进行合成,再进行多元回归,可提升回归问题的准确性; 2. 将同一风格大类下的几个细分因子进行合成,可生成用于刻画市场风格状态变化的大类因子(比如用近1个月、3个月、6个月日均换手率因子合成一个换手率大类风格因子)。

因子合成常用方法:等权法、历史收益率加权法、最大化IC_IR加权法等
本文介绍了常用的6种因子合成方式:等权法、历史收益率(半衰)加权法、历史IC(半衰)加权法、最大化IC_IR加权法、最大化IC加权法、主成分分析法。我们按照因子的6个类别(估值、成长、动量反转、换手率、波动率、财务质量因子)分别进行合成测试,所有因子采用统一的行业中性、市值中性的测试框架。首先采用回归法计算因子收益率序列和对应的t值序列,然后计算因子Rank IC值与IC_IR,再结合分层测试法中的多空组合净值变化趋势,综合判别复合因子的有效性与稳健性。

因子合成测试结果:最大化IC_IR及最大化IC法优于其它因子合成方法
对不同类别的因子组合进行单因子测试,结果显示大部分情况下最大化IC_IR及最大化IC复合因子能显著提高复合因子的因子收益率、因子IC_IR、多空组合夏普比率等,并降低最大回撤,战胜等权复合因子及其它因子,且大幅优于原始因子。历史收益率(半衰)加权法有时也能得到很好的合成效果。

复合因子的稳定性:除等权法外,第一主成分复合因子最稳定
本文采用复合因子前后两期权重的误差及复合因子前后两期的相关系数来衡量不同因子合成方法得到的复合因子稳定性。等权法是所有因子合成方法里最稳定的方法,因为每期的权重都相同。除等权法外,主成分分析的稳定性次之,但每期权重系数的差异也很小。最大化IC法,历史IC(半衰)加权法的稳定性较差,权重及复合因子的波动较大。

最大化IC_IR法参数敏感性分析:时间窗口T=12效果较好
时间窗口T是最大化IC_IR法的重要参数,对下一期因子IC值的预测采用了历史T期(单位:月)的均值,对IC协方差矩阵的预测也采用了历史T期的IC值。本文测试了T=3、6、9、12、24、36时不同类别因子的合成效果。测试结果表明,对大部分因子组合T=12就可以达到很好的效果,对有些因子组合也可以采用T=9、24、36。

风险提示:因子合成方法的回测结果是历史经验的总结,如果市场环境改变,各方法的对比效果可能发生变化。本文所列的因子合成方法只是比较常见的几个,没有囊括全部合成方法,可能存在回测效果更好的方法。因子合成在多因子选股模型构建过程中不是必备的步骤,读者可以自行斟酌,构建适合自己的多因子选股模型。


因子合成方法简介
因子合成是构建多因子选股模型的重要环节。因子合成的应用场景主要有两方面:首先,因子库内一些因子间可能存在多重共线性,若直接进行多元线性回归则会导致结果不准确,在更严重的情况下可能导致回归问题难以求解,若能在回归之前将共线性比较严重的因子进行合成,则可提升多元线性回归的准确性;其次,在观察市场近期因子表现时,经常需要对比估值、成长、波动率等大类风格因子的强弱,以波动率风格因子为例,近1个月、3个月、6个月波动率因子均属波动率风格大类下面的细分因子,难以用某个单因子刻画整个风格大类的表现,这时就需要对若干个有代表性的波动率细分因子进行合成,产生一个合理的有代表意义的波动率风格因子。

本文是华泰多因子系列研究第十篇,在多因子系列首篇报告中,我们系统地阐述了多因子模型的基本理论,详细描述了多因子模型构建的流程,第二篇到第九篇报告则主要聚焦单因子测试分析,依次对估值、成长、动量反转、换手率、波动率、资金流向、财务质量、一致预期因子进行了详细的研究和检验,通过综合对比评价,筛选出能持续获得稳健收益的优质因子。本文的关注点则与前九篇具有一些差别,主要着眼于多因子模型在单因子测试之后的一个比较细致的环节——因子合成,通过详细对比几种合成方法的理论基础和实证效果,并对合成过程中涉及的参数进行敏感性分析,得出各方法的应用特点和适用场景。

接下来,我们将开始介绍因子合成方法的理论基础。常见的方法有等权法、历史IC(半衰)加权法、历史收益率(半衰)加权法、最大化IC加权法、最大化IC_IR加权法、主成分分析(PCA)法。对于不同相关性及不同类别的因子,可考虑选用不同加权方式进行合成。在合成过程中,选用不同历史窗口期及不同因子合成数目,对合成效果都有影响。


等权法
所有待合成因子等权重相加,得到新的合成后因子。比如换手率风格因子,将近1个月、3个月、6个月日均换手率因子及近1个月、3个月、6个月日均换手率除以近2年日均换手率因子等权重相加(每个因子权重为1/6),合成新的换手率风格因子,然后再重新进行标准化等处理。


历史因子收益率(半衰)加权法
所有待合成因子,按照最近一段时期内历史因子收益率的算术平均值(或半衰权重下的加权平均值)作为权重进行相加,得到新的合成后因子。此处的因子收益率是指单因子测试之回归法中的因子回归系数(详见第二章第一节)。还是以上一小节的换手率风格因子为例,如果这六个因子的历史因子收益率均值分别是1、2、3、4、5、6,则每个因子的权重分别为:1/(1+2+3+4+5+6)= 1/21、2/(1+2+3+4+5+6)= 2/21、3/21、4/21、5/21、6/21,即为4.76%、9.52%、14.29%、19.05%、23.81%、28.57%。此种方式合成的因子具有比较大的历史因子收益率(数学证明比较简单就不展开叙述了),但是由于待合成因子往往具有多重共线性,回归稳定的数值解不稳定,即历史因子收益率可能不稳定,影响合成权重的计算。因子收益率序列在半衰权重下的加权平均值计算过程可以参考下一小节的详细描述。


历史因子IC(半衰)加权法


所有待合成因子,按照最近一段时期内历史RankIC的算术平均值(或半衰权重下的加权平均值)作为权重进行相加,得到新的合成后因子。RankIC的计算方法详见第二章第二节。该方法与上一小节提出的方法基本思想相同,只是核心关注指标有所区别。

我们在此处统一介绍半衰加权法的详细计算方式。若要计算最近一段时期内历史RankIC的算术平均值,我们只需要将每一期的RankIC等权相加,再除以期数即可,而半衰加权每一期RankIC的权重不同,将按照指数半衰权重进行加权。半衰加权的基本原则是距离现在越近的截面期权重越大、越远权重越小。这里存在一个参数——半衰期H,其意义为每经过H期(向过去前推H期),权重变为原来的一半,半衰期参数可取1,2,4等。具体来讲,假设对某个因子来说,其过去T期的RankIC序列为矢量ic,分量ic1是距离现在最远一期的RankIC值,ict是距离现在最近一期的RankIC值,w是半衰权重,w1是距离现在最远一期的权重,则的计算公式为:

在实际计算中,上述权重需要归一化,即w_t'=w_t/sum(w_t)。从上式中可以验证,设现在是t期,权重为w_t=2^{(t-T-1)/H},经过H期,w_{t-H}=2^{(t-H-1)/H}/2,即为w_t的一半。


最大化IC_IR加权法


Qian在《Quantitative Equity Portfolio Management》一书中提出最大化复合因子IC_IR的方法。其基本思想是,以历史一段时间的复合因子平均IC值作为对复合因子下一期IC值的估计,以历史IC值的协方差矩阵作为对复合因子下一期波动率的估计,根据IC_IR等于IC的期望值除以IC的标准差,可以得到最大化复合因子IC_IR的最优权重解。以w表示因子合成时所使用的权重,IC下向量表示因子IC均值向量,其中各分量表示第k个因子在历史一段时间内的IC均值,sigma为因子IC的协方差矩阵。则最优化复合因子IC_IR的问题可以表示为:

上述优化问题具有显式解w=sigma^{-1}IC, 对计算出的w需进行归一化。实际上,我们仍然使用因子的RankIC而非简单IC (Pearson IC)参与上述计算,后文中若未明确指出,则所有的IC均指代RankIC。


该方法在运用中值得注意的有两点。首先,对协方差矩阵的估计常常有偏差。统计学中以样本协方差矩阵代替总体协方差矩阵,但在样本量不足时,样本协方差矩阵与总体协方差矩阵差异过大,另外估计出的协方差矩阵可能是病态的,造成上述优化问题难以求解。因此,在求解权重的过程中,协方差矩阵的估计也是一个重要的问题。

其次,因协方差矩阵估计不准确或存在其它干扰因素,由显式解解出的权重常常出现负数,这与因子本身的逻辑相反,违反了因子的实际意义。我们推荐直接求解上述优化问题,并加上权重为正的约束条件,即求解以下优化问题:

经实际检验,含约束条件的优化问题求解出的权重更为合理,用于合成因子的效果也更好。本报告后面展示的结果亦是通过求解含约束优化问题得到因子权重来进行因子合成。(限于篇幅,通过求解不含约束优化问题进行因子合成的结果就没有详细展示了。)


本报告中采用两种协方差矩阵估计方法,并将结果进行对比。一种是采用样本协方差矩阵代替总体协方差矩阵 (即直接用历史IC协方差阵进行简单估计),另一种是采用Ledoit &Wolf(2004) 提出的压缩估计方法,目标矩阵采用单位矩阵,即将样本协方差矩阵向单位矩阵压缩。压缩的具体方法如下。


设矩阵sigma是真实的协方差矩阵,sigma*是有限样本下对sigma的渐进一致估计,I是单位矩阵(即目标矩阵),S是样本协方差矩阵。我们要寻找这样一组参数rho1, rho2,使得均方误差最小E(norm(sigma*-sigma)^2),这里的范数是矩阵的Frobenius范数,可以用于衡量两个矩阵的差异大小,Frobenius范数越大,两个矩阵差异越大,其定义为:norm(A) = Tr(A*AT)^{1/2},N是A的行数。使得均方误差最小的sigma*有如下估计式:

设S是X(N行T列矩阵,对应N个因子在T个截面期的因子IC)的样本协方差矩阵,X的第t列为x_t。rho1,rho2的具体表达式如下:

由以上公式可以计算得出rho1,rho2,进而得到经压缩估计的协方差矩阵sigma*。


最大化IC加权法
最大化IC加权法同样也是源于Qian《Quantitative Equity Portfolio Management》一书,与上一小节中提及的最大化IC_IR加权法非常类似。对应的最优化问题为:

其中w和IC的含义同上一小节,V是当前截面期因子值的相关系数矩阵 (由于因子均进行过标准化,自身方差为1,因此相关系数矩阵亦是协方差阵)。上述优化问题具有显式解w=V^{1}*IC,对计算出的w需进行归一化。这样求解出的w可以使得复合因子单期IC最大,如果因子值相关系数矩阵V在不同截面期近似不变,则w也是使得复合因子在历史一段时间的平均IC最大的解(证明详见《Quantitative Equity Portfolio Management》)。
与上一小节相同,我们求解上述优化问题并加约束条件w>=0。对于协方差阵V的估计,我们统一采用压缩协方差矩阵估计方式。


主成分分析(PCA)法



PCA是数据降维的常用方法,由Pearson在1901年提出。PCA 将一组相关性较高的N维数据投影到新的k维坐标上 (k
分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:1745
帖子:350
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP