国内目前的量化交易是否很少涉及到机器学习？

江嘉键 · 2018-10-13 14:22:57

从广义的角度来说，机器学习不仅仅是模型选择的问题。它涉及到数据预处理，特征工程，特征选择，模型选择，结果的验证和分析等一整套建模流程。因此，如果我们把机器学习应用于量化交易狭义地理解为 “用支持向量机成功预测股票涨跌” 这样的研究，这种认识接近于买椟还珠——令人遗憾地对机器学习领域散落遍地的珍珠视而未见。

      最近一些时间，机器学习和数据挖掘的热门导致了舆论上的小小逆反——大数据和机器学习的东西是否已经被过分吹捧？似乎与之相关的人和事都显得躁动不安。在社会科学研究中，有一个“经济学帝国主义”的说法，大致的意思是，经济学的研究范式被各个社会科学大量借鉴，其研究的范围似乎一望无际，了无边界，令其它学科的学者感到窘迫。如果我们去观察一些社会科学近几十年的发展脉络，我们会意识到，其趋势大致都可以用 “从定性到定量” 来概括。因此，放在这个历史进程中考量，机器学习的崛起无非是这一趋势的延续——过去模糊不定的经验，现在可以通过系统的数据分析证实或是证伪；而那些未曾被察觉的规律，则在机器学习算法的抽丝剥茧下得以浮现纸面。

      那么，当我们聚焦于“机器学习将如何深刻改变量化交易”这个命题，未来将会向我们展示何种图景？在我看来，大概有两个方向：（1）特别针对量化交易的统计学习算法被提出，使其适合于噪声大，分布不稳定的金融数据分析；同时在模型参数优化的过程中，考虑了夏普率或收益率最大化，风险最小化等量化交易者关心的目标；（2）对于机器学习的热情回归理性，从工具为导向回归到问题为导向——从 “不管怎么样先套用机器学习模型试试” 回归到 “我想要解决这个问题，而机器学习中正好有一个趁手的工具”。

   对于第一个方向，即研究更好更有针对性的新算法，我们能力有限，只能寄希望于学术界给我们带来启发；对于第二个方向，如何以问题为导向，在机器学习算法中挑选合适的工具，我们米筐科技量化策略研究团队最近一段时间做了不少的思考和尝试。以下是我们的一部分思路和经验，希望对你们有所帮助。

1 缺失值处理

由于早期的数据采样和收集不完善，或是数据源本身的问题，在金融的量化分析中，处理缺失值都是一个不可避免的问题。选取合理的缺失值处理方法，依赖于数据本身的特点、其对应的经济学意义和数据缺失的情况（大段缺失或是个别缺失），还有我们需要使用数据进行何种计算。

作为一个例子，在我们尝试构建多因子模型时，我们选择了两种缺失值替换方法：（1）把模型中包含的所有因子作为特征变量，并赋予其相同的权重，再采用机器学习中的K-近邻算法（K-nearestneighbors algorithm, KNN）来寻找最相似的标的，保证缺失值替换后，不会强化一部分因子的影响力；（2）采用期望最大化算法（ExpectationMaximization Algorithm, EM）来用同一变量的已知数据对缺失值进行极大似然估计。

2 特征工程和特征选择

在机器学习应用中，特征工程是用于解决数据集中已有的特征变量不够多，或者已有的特征变量不足以充分表征数据特点的情况；而特征选择则适用于当我们拥有大量的特征，需要判断出哪些是相关特征，哪些是不相关特征。在多因子模型中，特征工程和特征选择则可以帮助我们解决产生并筛选因子的问题。

在研究中，我们以 WorldQuant LLC 给出的 101 个阿尔法的数学表达式为例，进行了特征/因子构建的尝试；并在我们的研究平台上，实现了一个特征/因子的集成打分器，以对其进行系统的筛选。关于这方面的研究，有兴趣的朋友可进一步参考以下的知乎答案和知乎专栏：

江嘉键答过的问题

米筐科技（RiceQuant）策略研究：沪深300指数的特征工程和聚类分析-以WorldQuant Formulaic 101 Alphas为例 - 机器学习 & 金融量化分析 - 知乎专栏

米筐科技（RiceQuant）策略研究报告：特征选择方法探析—沪深300指数的集成特征选择和聚类分析 - 机器学习 & 金融量化分析 - 知乎专栏

3 多因子模型的因子权重计算

在构建多因子模型的时候，当我们已经选定了一系列因子，下一步我们需要解决的是如何根据不同的市场情况调整各个因子的权重。在我们过去的研究中，发现随机森林算法（Random Forest）对于存在非线性、噪音和自变量共线性的训练集的分析结果较其它算法更为出色。因此，在多因子模型的权重上，我们目前采用当期收益率对上期因子进行随机森林回归分析，以确定下一期多因子模型的因子权重。

4 舆情数据

通过分析群体情绪和新闻热点来预测证券价格的研究，大致上发轫于2011年的一篇研究《Twitter mood predicts the stock market》。尽管其采用的分析方法已经存在多年，但是直到直到各种社交平台的兴起，获取大量、即时的舆情数据才变得方便可行（大数据！）。而与之对应的自然语言处理（natural language processing, NLP）则是机器学习传统的研究领域。由于其涉及到的数据体量，这个研究方向天然就是复杂、精巧的机器学习理论和算法竞赛的舞台。如今，舆情数据的研究的方法和理论已是蔚为大观，可供尝试的工具和算法非常多。在应用舆情数据进行证券市场预测的研究上，我们团队的经验也非常浅。随着更多的舆情数据源纳入我们的平台，与舆情数据相关的研究也会成为我们团队下一步的重点。

以上就是我们团队目前对于机器学习应用于量化交易的一些尝试。希望对你们有所启发，也欢迎大家跟我们分享你的想法和经验。我们也将会陆续分享更多的研究成果，有兴趣的朋友也可以逛逛我们的专栏：

Moneycode - 知乎专栏