【财通金工】“拾穗”多因子(五):数据异常值处理:比较与实践

论坛 期权论坛 期权     
量化陶吧   2019-3-18 16:58   6106   0
投资要点
  数据异常值处理:比较与实践
        在进行回归分析或因子相关性分析时,因子暴露的异常值可能会极大影响回归系数和数据的相关系数。
        常用的异常值处理方法有均值标准差修正法、固定比率修正法、中位数去极值法、Beat G.Briner方法、因子排序值标准化法、箱形图法和无量纲处理方法,这些方法各有优劣。
        相较于价量因子,财务数据特别是增长率类数据所含的异常值更多。经实证检验,对于各类数据而言,中位数去极值法和箱形图法是更为稳健的方法。
        相较于传统的OLS回归法,基于分位数回归的方法更不容易受极端值影响,且能够更为全面地描述被解释变量条件分布的全貌。
  市场风格解析
            整体来讲,在过去的一个月中,高Beta、高波动的股票能够获得相对较高的收益,而大规模、前期涨幅过高的股票后市走势将会出现更为明显的回撤。
  指数风险预测
      所有样本指数在未来一个月的年化波动区间在21%-31%之间,相较上周出现小幅攀升,财通金工特别提醒投资者注意当前市场的波动情况。
  指数成分收益归因
           上周市场风格并不明朗,在表现占优的三只指数中,有以大盘、价值为代表的380价值指数,也有以中小盘、成长为代表的中证800指数,而在表现较差的三只指数中,有以大盘为代表的超大盘指数,也有以小盘为代表的创业板指数。
风险提示
本报告统计结果基于历史数据,过去数据不代表未来,市场风格变化可能导致模型失效。
更多交流,欢迎联系财通金工张宇,联系方式:17621688421  (注明机构+姓名)
欢迎在Wind中搜索“星火“和”拾穗”多因子系列,下载阅读我们的专题报告。
       本期为“拾穗”系列报告的第五期,主要就数据处理过程中异常值的识别及处理方法进行介绍,并在实证检验中探讨对于不同类别的数据(如财务类因子和价量类因子),何种方法更为合适。
  数据异常值处理:比较与实践  1                如果将整套量化系统比喻成一座宫殿,那么数据就是构建这座宫殿的基石。在现实研究中,这些基石并不总是令人满意,它们或大或小、或有或无,如何根据设计师的设想对这些基石进行雕琢,便是每位量化研究者的基础工作。异常值的存在对于数据集所含的信息会造成哪些损害?常用的异常值识别及处理方法有哪些?这些方法的优劣及适用范围究竟如何?即便存在异常值,是否有一些特定方法对此进行规避?本文将围绕上述问题展开讨论。
                1.1   初识:异常值的危害     
                在实际研究中,如果数据集的极值与异常值较多,可能会导致多因子模型在进行回归及相关性分析时误差较大。在处理因子暴露数据时,容易出现一些极端的异常值数据,或是不太符合实际的极端值,因此对极端值和异常值的识别和处理便显得尤为重要。当我们进行回归分析或因子相关性分析时,因子暴露的异常值可能会极大影响回归系数及相关系数。


财通金工以单季度净利润同比增长率(YOY_Profit)和单季度营业收入同比增长率(YOY_Sales)为例对此进行说明,这两个指标是构建股票成长类因子(Growth)的细分因子。从直观含义来讲,二者之间应该存在同向的相关关系,对其绘制散点图如图1左上角所示。         与一般的价量因子不同,财务因子特别是增长率因子,通常是将本期指标与前期指标相除减1得到,若期初数据过小而本期经过较大幅度的增长,那么增长率数据将会求得一个异常大的数值。因此,增长率类的因子通常并不服从正态分布,且更容易出现极端值。由如图1左上角可以看到,由于两列数据都存在极端异常值,散点图无法看出二者之间的相关关系,经计算二者相关系数仅为0.0025,若仅凭该指标来判断,二者几乎不存在相关关系,这显然与我们的预期不符。           如果把原始数据中的异常值用几种不同的方法进行处理,从散点图和Pearson相关系数中可以发现数据之间相关性明显增大,且经过中位数去极值法和箱形图方法处理异常值后数据呈现的相关关系更加明显。


                1.2   探析:常用异常值处理方法介绍   
本小节就实际投资和相关文献中,异常值处理常用的均值标准差修正法(3σ法)、固定比率修正法(百分位法)、中位数去极值法(MAD法)、Beat G.Briner方法、因子排序值标准化法、箱形图方法和无量纲化处理方法进行介绍。

(1)均值标准差修正法(3σ法)
假定已知数据x服从正态分布,现在需向该数据集中新增一个数据,那么该数据位于数据集平均值3σ以外的概率可以表示为:P(|x-μ|>3σ)=P(|(x-μ)/σ|>3)。令y=(x-μ)/σ∈N(0,1),则由正态分布查表可知,P(|y|>3)
分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:1505
帖子:303
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP