【华泰金工林晓明团队】未来已来：AI量化选股模型概览——兼谈人工智能量化多因子基金的特点

摘要
人工智能和机器学习能与量化多因子选股模型相结合
人工智能（Artificial Intelligence）本质是以数理模型为核心工具，结合控制论、认知心理学等其它学科的研究成果，最终由计算机系统模拟人类的感知、推理、学习、决策等功能。从模型构建的角度上来看，机器学习与多因子选股有诸多共通之处，借助机器学习模型，多因子模型可以在以下方面相比于传统方法论有所突破：1. 机器学习模型相比传统线性模型在海量数据下有更好的性能。基于机器学习的多因子选股模型能充分使用海量、高维的因子数据。2. 大多数机器学习模型都具有非线性拟合能力。基于机器学习的多因子选股模型能利用非线性因子。

两种常用的机器学习模型：XGBoost和Stacking均有优秀的选股能力
本文介绍了两种常用的机器学习模型的原理：XGBoost和Stacking。XGBoost具有非线性拟合能力强、速度快等特点。Stacking则具有集成多个强学习器来达到取长补短的能力。我们在全A股票池内，构建月频调仓的中证500增强策略，在2011年1月31日到2019年9月30日的回测区间内，XGBoost年化超额收益率为17.17%，超额收益最大回撤为3.88%，信息比率为3.57。Stacking年化超额收益率为18.36%，超额收益最大回撤为4.74%，信息比率为3.70。两个模型均有优秀的选股能力。

人工智能量化多因子基金使用了AI技术，具有量化投资的多种优点
本文以信达澳银量化多因子混合基金（166107.OF）为例，分析了人工智能量化多因子基金的特点。该基金通过人工智能技术来利用多种来源的因子并进行非线性拟合，在云计算平台上实现专业策略回测框架、系统策略分析工具和模拟实盘交易的快速落地。该基金还具有传统量化投资中的纪律性优势、管理方法优势、风险管理优势、投资视野优势、多层次策略组合优势等特点。

风险提示：通过人工智能模型构建选股策略是历史经验的总结，存在失效的可能。人工智能模型可解释程度较低，使用须谨慎。本报告对历史数据进行梳理总结，不构成任何投资建议。

人工智能与多因子选股模型的结合

人工智能（Artificial Intelligence）本质是以数理模型为核心工具，结合控制论、认知心理学等其它学科的研究成果，最终由计算机系统模拟人类的感知、推理、学习、决策等功能。近年来，伴随着计算机算力的大幅提升和海量可用数据的积累，人工智能技术经历了突飞猛进的发展。从围棋到电子竞技再到多人德州扑克，人工智能展现了其在复杂博弈环境中的强大自我学习能力。人工智能和它借助的机器学习方法也逐渐渗透到人类生活的方方面面。从手写数字的自动识别，到电脑手机上的指纹解锁功能、语音识别系统，再到无人驾驶、智能医疗、智能投顾等热门领域，处处都有人工智能的身影。在投资领域，为了论证人工智能的有效性和可行性，自2017年6月开始华泰金工连续发布了24篇深度研究报告，并以周报跟踪的方式，向投资者展示人工智能和机器学习运用于量化投资中各个步骤的细节。

如图表1所示，从模型构建的角度上来看，机器学习与多因子选股有诸多共通之处，借助机器学习模型，多因子模型可以在以下方面相比于传统方法论有所突破：

1.  机器学习模型相比传统线性模型在海量数据下有更好的性能。基于机器学习的多因子选股模型能充分使用海量、高维的因子数据。
2.  大多数机器学习模型都具有非线性拟合能力。基于机器学习的多因子选股模型能利用非线性因子。

接下来，我们将介绍常用的机器学习模型。

常用的机器学习模型简介

XGBoost简介
XGBoost 是梯度提升算法的一种高效实现，原理类似GBDT。传统的GBDT通过串行集成多个CART决策树来形成强学习器，XGBoost则在GBDT的基础上进行了多方面优化。相比传统的线性模型，XGBoost由于使用决策树为基学习器，具有非线性拟合能力。决策树是一种非线性的分类器，如图表2的异或问题(横纵坐标X1、X2相同则分类为1，不同则分类为0)，该问题在逻辑回归、线性核的支持向量机下无解，但是使用决策树可以轻松解决。

相较于传统的GBDT算法，XGBoost主要在损失函数、正则化、切分点查找和并行化设计这些方面进行了改进，使得其计算上比常见工具包快5倍以上。图表3显示了XGBoost算法的流程，它与GBDT在数学上的主要不同之处在于训练每个弱学习器时的目标函数。

由图表3可知XGBoost算法的基本步骤与GBDT类似，下面主要阐述XGBoost的独特之处。

1.  在损失函数的设计上，XGBoost加入了正则项，用以控制模型复杂度，并且对损失函数做了二阶泰勒展开来近似。而传统的GBDT模型没有正则项，并且在优化时只用到了一阶导数的信息。正则项的加入使得XGBoost模型有着较低的方差，不容易发生过拟合。
2.  在计算信息增益选取最佳切分点时，XGBoost不是使用传统的Gini增益，而是利用图表4的公式来做评价指标。值得注意的是引入分割不一定会使目标函数减小，因为目标函数中还有对引入新叶子的惩罚项，而优化这个目标对应了树的剪枝，当引入分割带来的增益小于一个阈值时，可以剪掉这个分割。

3.  XGBoost另外一个独特之处在于其处理缺失值的方法。模型将缺失值当作稀疏矩阵来处理，在寻找切分点的过程中，模型只对该列特征值当中非缺失的值进行遍历，通过这个技巧来减少为稀疏特征寻找切分点的时间开销。在实现上，模型会分别处理将缺失的特征值样本分配到左叶子结点和右叶子结点的两种情形，计算增益后选择增益大的方向进行分裂。
4.  XGBoost还借鉴了随机森林的做法，支持列采样，即在选取切分点时只在部分特征中进行筛选，这样不仅能降低过拟合，还能减少计算时间。
5.  XGBoost还支持并行，但是XGBoost的并行不是指能够并行地训练决策树，而是在处理特征的层面上实现并行。我们知道，训练决策树最耗时的一步就是对各个特征的值进行排序（为了确定最佳切分点）并计算信息增益，XGBoost对于各个特征的信息增益计算就可以在多线程中进行。

Stacking简介

Stacking是一种常见的集成学习框架。一般来说，Stacking将训练一个多层（一般是两层，本文中默认两层）的模型结构，第一层（也叫学习层）包含n个不同的模型，将得到的预测结果合并为新的特征集，并作为下一层模型的输入，由下一层模型再次根据对应的数据标签进行训练，得到一个完整的框架。简单的示意图如下：

通常情况下，Stacking中第一层的模型会使用拟合度高的模型，以追求对训练数据的充分学习（如XGBoost、神经网络、SVM等）。由于不同的模型在原理上和训练集上有所差别，第一层模型可以认为是从原始数据中自动提取有效特征的过程。第一层模型中，由于使用了复杂的非线性变化提取特征，更易产生过拟合的情况。为了降低过拟合的风险，第二层模型倾向于使用简单的模型，例如逻辑回归、Lasso回归等广义线性模型。从以上分析可以看出，Stacking能够成功的关键在于第一层模型能针对原始训练数据得出有差异性（相关性低）且预测能力好的输出值，这样通过第二层模型进一步学习后，能够在多个第一层模型中取长补短，提升预测的准确度和稳定性。

机器学习选股模型测试流程和测试结果
测试流程

机器学习选股模型的构建方法包含下列步骤：

1. 数据获取：
a) 股票池：全A股。剔除ST股票，剔除每个截面期下一交易日停牌的股票，剔除上市3个月内的股票，每只股票视作一个样本。
b) 回测区间：2011年1月31日至2019年9月30日，月度滚动回测。
2．  特征和标签提取：每个自然月的最后一个交易日，计算图表7中231个因子暴露度，作为样本的原始特征；计算下个自然月的个股超额收益和信息比率（以中证500指数为基准），作为样本的标签。
3．  特征预处理：
a) 中位数去极值：设第T期某因子在所有个股上的暴露度序列为D_i，D_M为该序列中位数，D_M1为序列 |D_i-D_M| 的中位数，则将序列D_i中所有大于D_M+5D_M1的数重设为D_M+5D_M1，将序列D_i中所有小于D_M-5D_M1的数重设为D_M-5D_M1；
b) 行业市值中性化：将填充缺失值后的因子暴露度对行业哑变量和取对数后的市值做线性回归，取残差作为新的因子暴露度。
c) 标准化：将中性化处理后的因子暴露度序列减去其现在的均值、除以其标准差，得到一个新的近似服从N(0,1)分布的序列。
4．  训练集和交叉验证集数据处理：直接将样本合并成为样本内数据，按90%和10%的比例划分训练集和交叉验证集。
5．  样本内训练：训练两个模型：
a) XGBoost，模型输入为231个因子，训练目标为下个自然月的个股超额收益（以中证500指数为基准）。
b) Stacking：包含两个XGBoost基模型，两个模型输入都为231个因子，训练目标分别为下个自然月的个股超额收益和信息比率（以中证500指数为基准），再将两个基模型集成。
6．  交叉验证调整参数：模型训练完成后，使用模型对交叉验证集进行预测。选取交叉验证集MSE最小的一组参数作为模型的最优参数。
7．  样本外测试，组合优化构建组合：确定最优参数后，以T月月末截面期所有样本预处理后的特征作为模型的输入，得到每个样本的预测值f(x)，将预测值视作合成后的因子。然后使用组合优化模型得到T月月末截面期的股票权重。进行组合优化时，优化目标为最大化预期收益，约束条件为相对于中证500控制行业市值中性，个股主动权重偏离上限为1%。
8．  模型评价：构建选股组合评价模型。

测试结果: XGBoost和Stacking均有优秀的选股能力
图表8~图表10展示了机器学习选股模型的测试结果，回测区间为2011年1月31日至2019年9月30日，月频调仓，交易成本为双边千分之四。可以看出，机器学习构建的选股模型长期来看相对中证500具有稳定的超额收益，Stacking由于进行了模型集成，相比XGBoost表现更好。

信达澳银量化多因子混合基金的特点：AI+量化投资

基金简介

基本信息

信达澳银量化多因子混合基金（LOF）是一种上市型开放式基金，产品主要成分为股票，占基金资产的60%-95%，选股主要利用的是量化多因子模型。
图表11介绍了信达澳银量化多因子混合型证券投资基金(LOF)的产品要素：

产品费用信息

图表12介绍了信达澳银量化多因子混合型证券投资基金(LOF)的费用信息：

产品投资流程简介

信达澳银量化多因子混合型证券投资基金(LOF)是基于多因子模型的投资产品。多因子模型是通过捕捉多种驱动股票价格变化的因素(因子)，对股票的预期收益率和风险进行预测，并在此基础上构建相应投资组合的主动投资管理过程。目前的多因子模型，选取因子分别包括价值、质量、技术、情绪、成长和一致预期六个大类。图表13展示了此产品的投资流程，主要步骤包括数据预处理、模型构建、组合优化、交易执行和绩效归因。首先，需要将获取的各类数据做清洗和预处理，基于处理后的数据进行有效因子的挖掘，再根据这些因子构建投资组合。之后，综合考虑各方面的约束，如：风险约束、行业约束等，对投资组合进行优化，再完成投资交易。最后，还需要做绩效归因，对投资策略盈亏的原因进行分析。

作为量化投资和LOF基金相结合的产物，信达澳银量化多因子混合型证券投资基金同时具备了这两者的优势和特点。

量化投资的优势

量化投资和传统的主动投资本质上是相通的，二者都是通过对个股基本面、量价特征等方面的分析，构建具有超额收益的投资组合。不同的是，主动投资依赖的是基金经理的主观判断，而量化投资则是通过定性思想与定量模型的结合来产生投资信号。传统意义上，投资者对于基金产品的选择较多依赖于过往业绩和基金经理的主管判断，主动管理型产品受“人”的因素和市场风格切换的影响比较大。相比传统的主动投资方法，量化投资方法有以下几大方面的优势：

技术和数据优势

量化投资相比于传统投资的一个优势在于信息的快速接收和处理。量化投资者有机会接触和处理大量不同类型的数据，如金融大数据、舆情数据以及互联网数据，他们可以充分利用这些数据探究和寻找市场规律，挖掘出更多有效、稳定的因子，从而获得超额收益。此外，随着云计算平台的搭建，量化投资者可以利用大量CPU的计算能力，实现专业策略回测框架、系统策略分析工具和模拟实盘交易的快速落地，且云计算平台与大数据的结合，还可以使交易回测结果更为准确。与此同时，人工智能相关算法和技术的发展，也为量化投资者们提供了更多的选择和可能性。各类非线性模型如决策树、随机森林、神经网络的兴起，使得量化投资者在构建多因子模型时，可不再拘泥于线性的因子，而是利用如上述非线性机器学习方法来选择非线性因子，再构建具有线性因子和非线性因子的综合量化多因子模型。

纪律性优势

传统投资的缺陷之一关乎人性的弱点，比如恐惧与贪婪。很多交易者起初的交易理念或许是正确的，但交易时由于心理因素执行了错误的决策。解决这个问题的最好方法是利用机器进行交易，因为机器比人更冷静、执行力更强，这是量化投资非常重要的优势之一。严格执行量化投资模型给出的投资建议、不随投资者的情绪变化而随意更改，这样不仅可以克服人性弱点，也可以克服行为金融学中经常谈及的认知偏差，从而以绝对理性、符合逻辑的方法进行投资。

管理方法优势

传统的主动投资者通过对公司财务、估值等方面的信息进行综合考量，产生一个主观判断结果，进而形成投资决策。而量化投资者可以通过建立模型、构建组合、回测验证等一系列流程来客观评价模型的优劣，有反馈地进行修改完善。相较于主动投资，量化投资可以更透明地展示与执行投资者的理念，在管理方法上是具有优势的。

风险管理优势

量化投资还有利于风险管理。风险控制在交易过程中具有重要地位。交易者一旦被情绪主导，所有止盈止损线可能就会失去意义。但是在量化投资中，风险控制模块可以被提前编入模型当中，这样在交易执行过程中风险就会被监控，避免了人为干扰。

投资视野优势

传统的价值投资讲究全面、深入分析上市公司，挖掘投资机会，但基金经理或行业研究员的精力都是有限的，很难跟踪、监控全市场。而量化投资借助于计算机强大的数据处理能力，可以做到全市场、全品种、全周期覆盖，及时捕捉投资机会，具备更广阔的投资视野。

多层次策略组合优势

量化投资在策略选择的层次与角度上也有非常大的优势。它可以自上而下地结合多层次的量化模型，例如大类资产配置模型、行业轮动模型、选股模型等等；在选股模型中，还能多角度地对各种指标进行观察，包括宏观周期、市场结构、估值、成长等等。并且，量化投资可以通过事后的归因分析，剥离出各层策略的收益与风险，逐个加以完善。这种全方位多角度的评估是主动投资研究难以做到的，而量化投资方法在这方面非常有优势。

LOF基金的优势

LOF(上市型开放式基金Listed-Open-Ended Fund)，是一种可以在交易所挂牌交易的开放式基金。LOF同时存在一级市场和二级市场，可以像开放式基金一样通过基金发起人、管理人、银行及其他代销机构网点进行申购和赎回。同时，也可以像封闭式基金那样通过交易所的系统买卖。

上市型开放式基金(LOF)的优势主要有以下几点：

1.  费用相对较低：比起普通开放式基金申购、赎回双向费率，LOF基金在交易所交易的费用收取标准比照封闭式基金的有关规定办理，交易手续费率相对较低。
2.  资金到账快：采用场外交易方式，T日申购的基金份额，T+2日才可赎回，资金从赎回日起3到7个工作日才可收到。而场内交易，可以实现T+1基金交割、资金交收。
3.  存在套利机会：当市场价格>基金份额净值(申购日)+申购费用+卖出佣金时，投资者可通过选择“场内申购”基金份额后(T+2个工作日)再“场内卖出”份额实现套利。当市场价格

【华泰金工林晓明团队】未来已来：AI量化选股模型概览——兼谈人工智能量化多因子基金的特点

浏览过的版块