如何用深度强化学习自动炒股

<div id="js_content">
<img src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-5740399cda73692b60b5594a6f86bbee.gif"> 
向AI转型的程序员都关注了这个号????????????
人工智能大数据与深度学习公众号：datayx
<h1>深度学习技术在股票交易上的应用研究调查</h1>
http://gregharris.info/a-survey-of-deep-learning-techniques-applied-to-trading/
文中缩写：
<ul><li>DBN = 深度信念网络</li><li>LSTM = 长短期记忆网络</li><li>MLP = 多层感知器</li><li>RBM = 受限玻尔兹曼机</li><li>ReLU = 修正线性单元</li><li>CNN = 卷积神经网络</li></ul>
限价委托单薄模型（Limit Order Book Modeling）
 
Sirignano（2016）提出一种预测限价委托单薄变化的方法。他开发了一个「空间神经网络（spatial neural network）」，该网络可以利用局部空间结构的优势，比标准的神经网络更具可解释性、也更具计算效率。他模拟了在下一状态变化时最好的出价和要价。
架构：每个神经网络有 4 层。标准的神经网络每个隐藏层有 250 个神经元，而该空间神经网络有 50 个。他在隐藏层神经元上使用双曲正切激活函数。
训练：他在 2014 年至 2015 年的 489 支股票的委托单薄上训练并测试了该网络（每支股票有一个单独的模型）。他使用了来自纳斯达克的 Level III 限价委托单薄数据，这些数据有着纳秒级别的十进制精度。训练包括了 50 TB 的数据，并且使用了 50 个 GPU 组成的集群。他总结了 200 个特征：现价委托单薄在首个 50 非零买入和卖出（bid/ask）水平的价格和大小。他使用 dropout 防止过拟合，并在每个隐藏层之间使用批规范化（ batch normalization）来防止内部的协变量转变（covariate shift）。最后，使用 RMSProp 算法完成训练。RMSProp 类似于带有动量的随机梯度下降，但它通过一个过去梯度的移动平均（running average）对梯度进行规范化。他使用了一个自适应学习速率——在任何时候，当训练错误率随着训练时间增加时，这个学习速率就会按一定的常数因子下降。他使用一个被一个验证集强加的提前停止（early stopping）来减少过拟合。在训练时为了减少过拟合，他也用了一个 l^2 惩罚机制。
结果：他的结果显示限价委托单薄展现出了一定程度的局部空间结构。他能提前 1 秒预测委托单薄，也能预测下一次买入/卖出变化的时候。这一空间神经网络超过了标准的神经网络和没有线性特征的逻辑回归。这两种神经网络都比逻辑回归的错误率低 10%。
 
基于价格的分类模型
 
1.Dixon 等人（2016）使用一个深度神经网络预测 43 种大宗商品和外汇期货在接下来 5 分钟的价格变化。
架构：他们的输入层有 9896 个神经元，输入由滞后的价格差别和合同间的协动构成的特征。网络中有 5 层学习到的全连接层。4 个隐藏层中的第一层有 1000 个神经元，而且后面的每层逐次减少 100 个神经元。输出层有 129 个神经元（每一类 {-1,0,1} 对应 3 个神经元，乘以 43 个合同）。
训练：他们使用标准的带有随机梯度下降的反向传播方法进行训练。他们通过使用 mini-batching（依次在数个训练样本上计算梯度，而非单个样本）加速训练过程。他们使用一个英特尔 Xeon Phi 协处理器进行训练，而非使用英伟达 GPU 。
结果：总体上，他们报告在三类分类上实现了 42% 的准确率。他们做了一些前行训练（walk-forward training），而非传统的回测（backtest）。他们的箱形图（boxplot）展示了一些来自每一合同 mini-backtest 的普遍积极的夏普比率。他们没有把交易成本或者交叉买入/卖出差价考虑在内。他们所有的预测和特征都基于每 5 分钟最后时刻的中间价位。
 
2.Takeuchi 和 Lee（2013）想要通过预测哪支股票将有比中值更高或更低的月度收益（monthly returns）来加强动量效应（ momentum effect）。
架构：他们使用一个由堆栈 RBM 组成的自动编码器提取来自股票价格的特征，然后他们将特征送入一个前馈神经网络分类器。每个 RBM 包含由对称链（symmetric links）连接的可见单位层和隐藏单位层。第一层有 33 个单位，用于输入来自某个时候一支股票的特征。对每个月 t 而言，特征包括 t-2 月到 t-13 月 12 个月份的特征，以及对应 t 月的近似 20 天的

如何用深度强化学习自动炒股

浏览过的版块