请问深度强化学习在高频交易领域的应用前景如何？

对目前的一些在金融领域的应用有些粗浅的了解，但是想知道大神们的一些前瞻性的看法

有关回应 · 2021-5-14 20:33:05

个人认为是有一定应用前景的，但是并非直接应用到构建预测下单模型上。
先说下背景，我过去在美国一家做市商做高频交易。交易的产品大致可以分为两类，delta为1的产品（期货，股票这类）和delta不为1的产品（期权）。delta 1产品因为所要关注的risk维度低（没有vega risk这些），有很多机构应该已经做得很成熟了，所以在这里重点说的是期权。
在高频里期权赚钱的方法比较常见的是做市和套利，而期权套利一种模式是通过期货市场和期权市场的差价来完成的。拿cme的E-mini S&P 500 lead future举例，假如这个产品的卖家被一个买单从2500 扫到 2500.75（这个产品的tick size是0.25），我们通常有理由相信这个瞬间这个产品与之所对应的一部分期权产生了一个套利空间。于是乎我们可以在期权市场上下买单，并在期货上想办法对冲风险。但是这个相信的理由是怎么来的呢？
这个让我们下单的理由通过期货到期权的定价模型来衡量的。比如根据现在期权的价格我们可以反推之期货价格应该在多少为合理，然后再拿这个价值与市场变动后的价格比较，来决定期货市场价格是否走偏了，走偏了的话就去期权市场扫单。期权由于他的复杂性，我们无论是在下单还是在管理各种维度的risk的时候都会先设置一堆的参数来调试。做过高频交易的应该知道，直接套各种各样机器学习的模型到数据上99%是不可靠的，想找到盈利的方法通常还得从数据本身出发。而我们自己在看数据的时候如果想发现规律，通常也会设置一系列参数然后编出一些粗暴的模型来测试拟合度。这是一个漫长的过程，也需要一定的运气才能调试出来一个满意的结果。有些期权高频交易系统涵盖了几乎上千个参数，几乎任何调试都是牵一发动全身的操作。把这上千个参数归位上千个state，并利用深度强化学习的办法去不断更新这个state，不断优化结果，就是我觉得深度强化学习在高频交易领域可以应用的一个前景。
以上我说的策略模型都是简化过许多了，如有不严谨的地方欢迎大佬们指出。

有关回应 · 2021-5-14 20:33:06

谈点自己的浅见，
首先这事儿不是非黑即白的，下面有答主也提到了，量化不是玄学，指望靠高端模型大力出奇迹一步到位肯定不是不行的，如果这么简单，机器学习专家们都去开印钞机好了。
那问题其实就来了，一步到位不行，两步到位行不行？两步不到位三步到位行不行？
首先我们还是希望有一个共识：

损失函数明确且Ground Truth不需要探索状态空间的问题的确不需要强化学习。

这句话其实不严谨，但是我也还没想好怎么严谨的表达这个事儿。
大概举个例子的话，比如你看OpenAI的gym那些提供给强化学习训练测试的小游戏，基本都没有标注好的标签，全靠Agent自己探索状态空间，如果是策略迭代的，本质上还是在更新梯度的时候用Reward给个方向，来决定某个动作的概率是需要提升还是下降。
如果能有这个共识，我们可以接着讨论深度强化学习的应用前景，那也就是，目前量化有哪些问题需要探索状态空间没有现成标签的，
这里我算是抛砖引玉一下吧：

模型选择

例如，轮动现象经常可能使得某些训练好的模型失效，那么如果你有很多训练好的模型，如何在此刻，或者这个bar用哪个模型是否可以学习？

样本权重

例如，指数成分股的权重不同，或者因为先验的领域知识我们会人为的增加某些样本的权重，那么这些样本权重是否可以学习？

因子发现

例如，可能大家都知道的Alpha 101，定义好了一些算符，然后可以在已有因子的基础上生成新因子，那么这些算符是否可以学习？

自动做市

这个就不举例子了，这个工作现在好像特别多，我记得还有篇发在NIPS上的，有兴趣可以去看看。
最后有些朋友可能还有个疑问：
就是我直接用DDPG预测一个目标仓位行不行？你看这个，也没有标签，非常符合强化学习的设定。
这个经过试验发现对比传统方法没有显著的优势。
以上是简单的抛砖引玉了，还希望能和各位大佬多多交流。

有关回应 · 2021-5-14 20:33:07

我个人觉得如果这个高频是指低延迟交易，恐怕不行。但如果是指日内交易（一天十几次至几十次），也许值得一试。我个人尝试过A3C在1分钟数据上（包括raw OHLCV数据，以及各种技术指标），训练阶段还能比较快收敛，但是过拟合非常严重, generalization很差。我觉得有这么几种可能: 1) 要么与我的实现有关，毕竟这不是一个trivial的实现，很可能哪里隐藏着我没发现的bug, 2)要么就是1m data too noisy, 我所用的网络结构(CNN+LSTM)不足以提取足够通用的feature 3）要么就是1m bar数据的predictive power有限或者exploration 不足，不足以获得一个超越成本和点差的稳定盈利策略。也许以上几点兼而有之。总之，我觉得对我个人而言还是一个挺难的问题，需要反复探索实验

有关回应 · 2021-5-14 20:33:08

不是专业的交易员，只能瞎说哦，楼主勿怪，但是确实是自己的实际经验。
本人的交易不算高频，或者真正的高频交易是什么我也不大清楚。
我自己的应用可以分为两个阶段，第一个阶段，利用当前的行情设计出一种快速交易算法，使得以某一类因子可以得到一个蒙特卡洛搜索树。第二阶段，两个蒙特卡洛算法同时交易一个股票，使得交易结果差异化，并根据差异，评判出好与坏，也就是相应的煽值，并分别更新两个神经网络，使得两个算法互相竞争。不断重复第二阶段，直到达到极限或者自己认为的极限。
这里说一下为什么，要两个算法同时交易来竞争，因为这个方法可以避免因为重复学习一只股票自身的某些波动，而产生退化。退化越厉害，就会越接近历史的拟合，而不能让神经网络懂得避免交易陷阱的产生。
上文有点偏题了，主要就是说深度学习应用在高频交易我认为是可以试一下的，至于结果如何我不负责。我只是提出了我自己的方法。up主能不能明白就是另一回事了。

有关回应 · 2021-5-14 20:33:09

现在就在尝试用DRL来做自动化交易，一开始直接套用了DRL常用的算法，效果并不好，毕竟市场的行情在不断变化，一个固定的模型不可能一直是有效的，也就是常说的概念漂移。
但是可以先不用一上来就让它进行所有的买卖操作，可以只把它应用与一个小的方面，如异常点的检测，或者买或卖的信号检测。

请问深度强化学习在高频交易领域的应用前景如何？

5 个回复