【华泰金工林晓明团队】本周大多数模型跑赢基准——人工智能选股周报20181209

摘要
本周全A选股（沪深300行业市值中性）SVM表现最好
本周沪深300涨跌幅为0.28%。本周6个模型跑赢基准，超额收益最高的模型是SVM，该模型本周获得绝对收益0.71%，超额收益0.43%。最近一月超额收益最高的模型是SVM，该模型最近一月获得绝对收益-0.85%，超额收益0.40%。2018年以来超额收益最高的模型是随机森林，该模型2018年以来获得绝对收益-16.39%，超额收益5.77%。2018年以来RankIC均值最高的模型是朴素贝叶斯，该模型RankIC均值为0.115。

本周全A选股（中证500行业市值中性）朴素贝叶斯表现最好
本周中证500涨跌幅为0.78%。本周7个模型跑赢基准，超额收益最高的模型是朴素贝叶斯，该模型本周获得绝对收益1.60%，超额收益0.81%。最近一月超额收益最高的模型是Stacking，该模型最近一月获得绝对收益2.57%，超额收益2.67%。2018年以来超额收益最高的模型是Stacking，该模型2018年以来获得绝对收益-19.79%，超额收益10.55%。2018年以来RankIC均值最高的模型是朴素贝叶斯，该模型RankIC均值为0.115。

本周沪深300指数内选股XGBoost表现最好
本周沪深300涨跌幅为0.28%。本周3个模型跑赢基准，超额收益最高的模型是XGBoost，该模型本周获得绝对收益0.73%，超额收益0.45%。最近一月超额收益最高的模型是XGBoost，该模型最近一月获得绝对收益-0.76%，超额收益0.49%。2018年以来超额收益最高的模型是SVM，该模型2018年以来获得绝对收益-17.73%，超额收益4.43%。2018年以来RankIC均值最高的模型是随机森林，该模型RankIC均值为0.079。

本周中证500指数内选股朴素贝叶斯表现最好
本周中证500涨跌幅为0.78%。本周5个模型跑赢基准，超额收益最高的模型是朴素贝叶斯，该模型本周获得绝对收益1.66%，超额收益0.88%。最近一月超额收益最高的模型是逻辑回归，该模型最近一月获得绝对收益1.56%，超额收益1.66%。2018年以来超额收益最高的模型是朴素贝叶斯，该模型2018年以来获得绝对收益-22.52%，超额收益7.82%。2018年以来RankIC均值最高的模型是朴素贝叶斯，该模型RankIC均值为0.096。

本周中证800指数内选股XGBoost表现最好
本周中证800涨跌幅为0.40%。本周5个模型跑赢基准，超额收益最高的模型是XGBoost，该模型本周获得绝对收益1.21%，超额收益0.81%。最近一月超额收益最高的模型是逻辑回归，该模型最近一月获得绝对收益0.21%，超额收益1.19%。2018年以来超额收益最高的模型是随机森林，该模型2018年以来获得绝对收益-16.18%，超额收益8.10%。2018年以来RankIC均值最高的模型是朴素贝叶斯，该模型RankIC均值为0.083。

风险提示：通过人工智能模型构建选股策略是历史经验的总结，存在失效的可能。

华泰人工智能选股策略
华泰金工人工智能选股系列报告将多种机器学习算法应用到多因子选股中，目的是利用机器学习算法的非线性特性和自动学习能力，从传统的多因子数据中挖掘出能带来更高超额收益的非线性特征。本周报中，我们跟踪了Stacking、SVM、朴素贝叶斯、随机森林、XGBoost、逻辑回归、神经网络7个模型在月频多因子选股的表现。对于每一种模型，我们构建了以下5种多因子选股模型，进行定期跟踪（对于Stacking模型，目前只应用于全A选股，后续会对其应用于指数内选股进行研究）。

1. 全A选股（沪深300行业市值中性）：月频调仓，在全部A股中选股，组合构建时相对于沪深300指数进行行业中性和市值中性。
2. 全A选股（中证500行业市值中性）：月频调仓，在全部A股中选股，组合构建时相对于中证500指数进行行业中性和市值中性。
3. 沪深300指数内选股：月频调仓，在沪深300指数成分股中选股，组合构建时相对于沪深300指数进行行业中性和市值中性。
4. 中证500指数内选股：月频调仓，在中证500指数成分股中选股，合构建时相对于中证500指数进行行业中性和市值中性。
5. 中证800指数内选股：月频调仓，在中证800指数成分股中选股，合构建时相对于中证800指数进行行业中性和市值中性。

对于所有跟踪的模型，使用如下统一回测条件：
1. 股票池处理：剔除ST、停牌、上市3个月以内的股票。
2. 特征提取：70个因子作为特征（估值、成长、动量翻转、波动率、换手率、情绪、技术、市值等）。对原始因子做中位数去极值，缺失值填充（行业平均），行业市值中性，标准化。
交易费用：单边千分之二。

注：本周报自2018年6月30日起，开始使用行业中性+市值中性的组合构建方法进行回测，回测绩效相比之前周报有所区别，特此提醒。

各模型本周、最近一个月和2018年以来超额收益表现
沪深300涨跌幅为0.28%，中证500涨跌幅为0.78%，中证800涨跌幅为0.40%，小盘指数表现优于大盘指数。本周大多数模型跑赢基准。

各模型2018年以来和2011年以来RankIC均值
模型RankIC计算方法：在某一股票池（如沪深300）内，使用模型对所有个股进行打分，然后将打分与个股下个月收益率计算Spearman 秩相关系数，即得到该模型的Rank IC 值。

对于全A选股，2018年以来RankIC均值最高的模型是朴素贝叶斯，该模型RankIC均值为0.115。
对于沪深300成分内选股，2018年以来RankIC均值最高的模型是随机森林，该模型RankIC均值为0.079。
对于中证500成分内选股，2018年以来RankIC均值最高的模型是朴素贝叶斯，该模型RankIC均值为0.096。
对于中证800成分内选股，2018年以来RankIC均值最高的模型是朴素贝叶斯，该模型RankIC均值为0.083。

各模型2011年以来超额收益曲线

各模型2011年以来详细回测绩效

各模型RankIC详细指标

华泰人工智能选股策略简介
本报告所涉及的所有机器学模型的详细介绍，可参见华泰人工智能系列报告：
1. 人工智能选股框架及经典算法简介
2. 人工智能选股之广义线性模型
3. 人工智能选股之支持向量机模型
4. 人工智能选股之朴素贝叶斯模型
5. 人工智能选股之随机森林模型
6. 人工智能选股之Boosting模型
7. 人工智能选股之Python实战
8. 人工智能选股之全连接神经网络
9. 人工智能选股之循环神经网络模型
10. 宏观周期指标应用于随机森林选股
11. 人工智能选股之Stacking集成学习
12. 人工智能选股之特征选择
13. 人工智能选股之损失函数的改进
14. 对抗过拟合：从时序交叉验证谈起
机器学习模型运用到多因子选股的流程

1．数据获取：
a) 股票池：沪深300成份股/中证500成份股/全A股。剔除ST股票，剔除每个截面期下一交易日停牌的股票，剔除上市3个月内的股票，每只股票视作一个样本。
b) 训练样本长度：72个月。
2．特征和标签提取：每个自然月的最后一个交易日，计算70个因子暴露度，作为样本的原始特征；计算下一整个自然月的个股超额收益（以沪深300指数为基准），作为样本的标签。因子池如图表21所示。
3．特征预处理：
a) 中位数去极值；
b) 缺失值处理：得到新的因子暴露度序列后，将因子暴露度缺失的地方设为中信一级行业相同个股的平均值。
c) 行业市值中性化：将填充缺失值后的因子暴露度对行业哑变量和取对数后的市值做线性回归，取残差作为新的因子暴露度。
d) 标准化：将中性化处理后的因子暴露度序列减去其现在的均值、除以其标准差，得到一个新的近似服从分布的序列。
4．训练集和交叉验证集的合成：
a) 分类问题：在每个月末截面期，选取下月收益排名前30%的股票作为正例（y=1），后30%的股票作为负例（y=0）。将训练样本合并，随机选取90%的样本作为训练集，余下10%的样本作为交叉验证集。
b) 回归问题：直接将样本合并成为样本内数据，同样按90%和10%的比例划分训练集和交叉验证集。
5．样本内训练：使用机器学习模型对训练集进行训练。
6．交叉验证调参：模型训练完成后，使用模型对交叉验证集进行预测。选取交叉验证集AUC（或平均AUC）最高的一组参数作为模型的最优参数。
样本外测试：确定最优参数后，以T月月末截面期所有样本预处理后的特征作为模型的输入，得到每个样本的预测值，使用预测值构建组合选股。

风险提示
通过人工智能模型构建选股策略是历史经验的总结，存在失效的可能。

免责申明
本公众平台不是华泰证券研究所官方订阅平台。相关观点或信息请以华泰证券官方公众平台为准。根据《证券期货投资者适当性管理办法》的相关要求，本公众号内容仅面向华泰证券客户中的专业投资者，请勿对本公众号内容进行任何形式的转发。若您并非华泰证券客户中的专业投资者，请取消关注本公众号，不再订阅、接收或使用本公众号中的内容。因本公众号难以设置访问权限，若给您造成不便，烦请谅解！本公众号旨在沟通研究信息，交流研究经验，华泰证券不因任何订阅本公众号的行为而将订阅者视为华泰证券的客户。

本公众号研究报告有关内容摘编自已经发布的研究报告的，若因对报告的摘编而产生歧义，应以报告发布当日的完整内容为准。如需了解详细内容，请具体参见华泰证券所发布的完整版报告。

本公众号内容基于作者认为可靠的、已公开的信息编制，但作者对该等信息的准确性及完整性不作任何保证，也不对证券价格的涨跌或市场走势作确定性判断。本公众号所载的意见、评估及预测仅反映发布当日的观点和判断。在不同时期，华泰证券可能会发出与本公众号所载意见、评估及预测不一致的研究报告。

在任何情况下，本公众号中的信息或所表述的意见均不构成对客户私人投资建议。订阅人不应单独依靠本订阅号中的信息而取代自身独立的判断，应自主做出投资决策并自行承担投资风险。普通投资者若使用本资料，有可能会因缺乏解读服务而对内容产生理解上的歧义，进而造成投资损失。对依据或者使用本公众号内容所造成的一切后果，华泰证券及作者均不承担任何法律责任。

本公众号版权仅为华泰证券股份有限公司所有，未经公司书面许可，任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公众号发布的所有内容的版权。如因侵权行为给华泰证券造成任何直接或间接的损失，华泰证券保留追究一切法律责任的权利。本公司具有中国证监会核准的“证券投资咨询”业务资格，经营许可证编号为：91320000704041011J。

林晓明
执业证书编号：S0570516010001
华泰金工专题报告一览
【华泰金工林晓明团队】估值因子在行业配置中的应用——华泰行业轮动系列报告之五

【华泰金工林晓明团队】对抗过拟合：从时序交叉验证谈起
【华泰金工林晓明团队】周期轮动下的BL资产配置策略
【华泰金工林晓明团队】酌古御今：指数增强基金收益分析
【华泰金工林晓明团队】动量增强因子在行业配置中的应用--华泰行业轮动系列报告之四
【华泰金工林晓明团队】基于回归法的基金持股仓位测算
【华泰金工林晓明团队】周期视角下的因子投资时钟--华泰因子周期研究系列之二
【华泰金工林晓明团队】人工智能选股之损失函数的改进——华泰人工智能系列之十三
【华泰金工林晓明团队】人工智能选股之特征选择——华泰人工智能系列之十二
【华泰金工林晓明团队】指数增强方法汇总及实例——量化多因子指数增强策略实证
【华泰金工林晓明团队】华泰单因子测试之财务质量因子——华泰多因子系列之八
【华泰金工林晓明团队】华泰单因子测试之资金流向因子——华泰多因子系列之七
【华泰金工林晓明团队】Smartbeta在资产配置中的优势——华泰金工Smartbeta专题研究之一
【华泰金工林晓明团队】人工智能选股之Stacking集成学习——华泰人工智能系列之十一
【华泰金工林晓明团队】A股市场及行业的农历月份效应——月份效应之二
【华泰金工林晓明团队】宏观周期指标应用于随机森林选股——华泰人工智能系列之十
【华泰金工林晓明团队】2018中国与全球市场的机会、风险 · 年度策略报告（上）
【华泰金工林晓明团队】周期视角下的行业轮动实证分析·华泰行业轮动系列之二
【华泰金工林晓明团队】基钦周期的量化测度与历史规律 · 华泰金工周期系列研究
【华泰金工林晓明团队】人工智能选股之全连接神经网络——华泰人工智能系列之八
【华泰金工林晓明团队】基钦周期的量化测度与历史规律 · 华泰金工周期系列研究
【华泰金工林晓明团队】基于通用回归模型的行业轮动策略 · 华泰行业轮动系列之一
【华泰金工林晓明团队】人工智能选股之Python实战——华泰人工智能系列之七
【华泰金工林晓明团队】人工智能选股之Boosting模型——华泰人工智能系列之六
【华泰金工林晓明团队】人工智能选股之随机森林模型——华泰人工智能系列之五
【华泰金工林晓明团队】华泰价值选股之现金流因子研究——现金流因子选股策略实证研究
【华泰金工林晓明团队】周期三因子定价与资产配置模型（四）——华泰金工周期系列研究
【华泰金工林晓明团队】周期三因子定价与资产配置模型（三）——华泰金工周期系列研究
【华泰金工林晓明团队】周期三因子定价与资产配置模型（二）——华泰金工周期系列研究
【华泰金工林晓明团队】周期三因子定价与资产配置模型（一）——华泰金工周期系列研究
【华泰金工林晓明团队】人工智能选股之朴素贝叶斯模型——华泰人工智能系列之四