统计套利之配对交易 pair trading概述

论坛 期权论坛 期权     
期权匿名问答   2022-10-15 04:47   9859   1
from The Comprehensive Introduction to Pairs Trading - Hudson & Thames
历史发展

配对交易已被证明是一种流行且复杂的交易策略,通常在高级金融工程硕士课程中教授。特别提到 Gerry Bamberger,他是该技术的先驱,后来离开摩根士丹利,加入普林斯顿纽波特合伙公司的 Ed Throp。
随着市场的快速发展和技术的进步,套利机会变得越来越少,利润也越来越小。适应市场,整个行业都需要升级。在 2000 年代初期,曾经广受赞誉的配对交易策略进入了“冰河时代”,近十年后,对该领域的兴趣复苏带来了许多先进的方法,随之而来的是急需的变革。
所积累的先进科学研究的数量正是该战略发展并充分发挥其作为一种真正普遍且稳健的方法的潜力所需要的。方法的多样性在复杂性和资产选择上各不相同——这为统计套利在当前金融世界的大放异彩设置了一个全新的阶段。
什么是配对交易?

首先,我们需要从统计套利和配对交易的定义开始。人们通常会互换使用这两个术语,但是,配对交易是统计套利的一个子集,因此我们可以说所有配对交易都是统计套利,但并非所有统计套利都是配对交易。
统计套利通常分为因子投资和配对交易的均值回归投资组合。我们应该补充一点,最简单的配对交易是指仅交易 2 种资产,但它可以扩展到 n 个均值回归投资组合。
文献中没有一个统一的定义,每个作者都有自己的看法,所以我们自己把它正式化如下:
“配对交易是一种利用两个(或多个)共同移动资产之间的错误定价的方法,通过在一个(多个)中做多并做空另一个(多个),押注这种关系将保持不变并且价格将收敛到均衡水平”
在下面的示例中,我们使用ArbitrageLab(一个专注于配对交易的python非开源library,需要付费才能下载使用)的实现来模拟一对共同移动资产。第一个图显示了共同移动的资产,而底部的图则说明了如何通过做多第一个资产并做空第二个资产的 60% 来创建均值回归价差。正是这种价差可以在无需对未来做出任何预测的情况下进行交易。


配对交易背后的直觉可以追溯到投资的基本原则:“买入低估 - 卖出高估”。然而,要确定资产是否真的被高估或低估,我们需要知道资产的内在价值是比较难的,这主要是价值投资所做的事情。
统计套利和配对交易试图利用价格相对论来解决这个问题。如果两种资产具有相同的特征和风险敞口,那么我们可以假设它们的市场行为也相似。这样做的好处是不必估计资产的内在价值,而只需估计它相对于同行的价值是否被低估或高估。我们只需要关注两者之间的关系,如果价差扩大,可能是其中一种证券定价过高,另一种证券定价过低,或兼而有之
在这种情况下,我们可以通过卖出价格较高的证券并购买价格较低的证券来利用这一优势,并期望随着价格收敛到均衡水平,未来定价错误会自然地自行纠正。
下面的示例显示了 AME 和 DOV 之间的关系,请注意点差如何足够稳定,可以建立进场和离场头寸并获得利润。


两种资产之间的相互错误定价由价差值表示。与 0 的价差越大,因此点差越大,盈利潜力就越大。配对交易的最佳品质之一是市场中性,因为通过调整价差的对冲比率,可以将其构建为具有可忽略不计的贝塔,从而最大限度地减少市场风险。
其实核心定义就是:
“配对交易是一种利用两个(或多个)共同移动资产之间的错误定价的方法,通过在一个(多个)中做多并做空另一个(多个),押注这种关系将保持不变并且价格将收敛到均衡水平”
另外需要注意的是,这里多空的比例并不一定是1:1的比例。
建立配对交易策略的 3 个步骤

pair selection

用大白话来讲,配对交易针对的不同资产之间要满足较强的“联动性”,比如券商的票子常常同涨同跌(不过A股市场做起来比较麻烦,因为A股没法卖空,除非是做指数增强之类的策略本身具有比较大的底仓才有可能能做一些配对交易来进行主策略的增强,纯粹的配对交易的私募产品,国内的品种目前感觉cta才可以比较smooth的做一下)
因此,配对交易的第一个步骤是想方设法找到那些联动性比较强的资产品种。
spread modeling

这里是将不同资产品种的多空组合对应的价差称之为spread modelling,具体的modeling方式和交易策略下面会提到,按照不同的配对交易方法的分类有不同的做法。

trading rules


具体的入场和出场的交易策略设定。
配对交易的分类



基于距离的方法

由Gatev 在 2006 年推广(from 《Pairs Trading: Performance of a Relative Value Arbitrage Rule》),这种方法占据了被引用最多的配对交易策略的位置。这种方法的简单性和透明度使其成为大型实证研究的首选。
大概思路是在配对选择过程中,利用皮尔逊相关性、距离相关性、角距离等各种距离度量来识别联动证券。在交易期间,使用简单的非参数阈值规则来触发交易信号
协整方法

Vidyamurthy 2004 概述的另一种非常流行的方法是协整方法。在这种方法中选择的pair具有计量经济学上更可靠的平衡关系。
大概思路是 配对选择过程是通过应用协整检验来识别共同移动资产来进行的。交易信号是通过使用简单规则生成的,主要由 (Gatev et al 2006) 阈值规则生成(看来《Pairs Trading: Performance of a Relative Value Arbitrage Rule》这篇paper得看看)
(相对于基于距离的方法,换了一种评估联动性的方式)

时间序列方法


为了改进给定策略的交易规则,我们转向均值回归过程的时间序列建模,而不是协整。
在配对选择步骤中,我们的目标是创建一个真正的均值回归投资组合/价差。选择的均值回归过程适合价差,以确定交易策略的最佳规则。文献中最流行的均值回复过程之一是Ornstein-Uhlenbeck 过程。
(这个地方写的比较笼统,没太懂)

随机控制方法

通过使用随机过程,我们可以确定给定均值回归策略的最佳交易规则,而无需预测价差在下一个时期将如何移动或需要一个形成时期。这是一种高级配对交易策略,它依赖于使用随机过程为均值回归投资组合生成最佳交易规则和策略。
(没太懂,没上过随机过程这门课,感觉得补一下了,sde里也有很多关于随机过程的东西)

其他方法


尽管归为“其他”,但这里包含的方法是该领域中最先进(最新。。感觉也不能说是最先进吧。。)的方法之一,我们将逐一研究它们并扩展它们的差异。下面举了几个例子

Copula
允许您研究交易的不同分支之间更深层次的关系,并使您能够分析来自多个随机变量的依赖结构。这种新颖的方法还允许您使用多个资产,而不仅仅是使用一对(2 个资产)。交易规则选择过程通常依赖于条件概率的概念。copula的数据拟合过程通常分为两部分:将边缘数据转换为分位数和使用以下分位数拟合 copula。
主成分分析
Avellaneda 和 Lee (2010) 提出的方法使用 PCA 来创建看似均值回复的传播,该传播又由 OU 过程建模。交易规则的生成类似于时间序列方法,主要关注所使用的主成分分析方法的类型——渐近、规则或多元协整模型。在撰写本文时,该模型被许多人认为是均值回归交易的前沿。
机器学习
机器学习方法的特点是利用不同方法中使用的技术与机器学习算法相结合,并将其应用于策略创建过程。
虽然预测时间序列是一个难题,并且非线性模型显示出很多希望,但我们转而选择专注于机器学习以进行配对选择。Sarmento 和 Horta 所著的“基于机器学习的配对交易投资策略”一书提供了一个复杂且经过深思熟虑的过程来确定高质量的配对。 您可以在此处阅读所有相关信息: 使用机器学习进行配对选择。

3 种关键的回测方法

前进法


walk-forward方法是业界最常用的方法。在这种方法中,测试按照时间向前推进,目标是防止未来信息泄漏,可以简单地将其视为历史模拟/历史回测。该方法在历史完全重演的假设下评估投资算法的性能。但是,它没有考虑数据生成过程的随机性。它只说明了一条历史路径。
这种就类似于常规的互联网公司的建模过程,按照时间划分training data,然后对oot data做evaluation,只不过回测的过程中,上述的步骤是rolling 递进的。这里提到的walk-forward的缺点是只在已知的确定的历史数据上做回测,但实际上金融市场的变换充满了不确定性,如果能在回测的过程中把这种不确定性也考虑进来,那么对模型的评估就会更鲁棒。

重采样方法


重采样方法通过引入可以通过对过去观察值重采样来模拟未来路径的假设,解决了walk-forward技术的弱点。
简单来说就是通过一些简单上采样的方式去生成不同的历史数据,重采样方法通过简单的对历史数据进行重复,或裁剪等等,产生不同的历史走势数据,然后在不同的历史走势数据上测试同一个模型,以此来模拟不确定性导致的潜在的不同的历史行情是否都能够适配于同一个模型。从而避免量化工程师大量的回测实验会过拟合现有的行情,过拟合重采样后的多种历史行情的回测比walk-forward难得多。
然而,从有限的历史样本中重新抽样仍然有可能不能代表未来。
蒙特卡罗方法


这种方法改进了前两种方法的不足——更深入地了解数据生成过程。它在假设未来路径可以通过蒙特卡罗模拟并依赖于从观察或理论(市场微观结构、制度过程、经济联系等)的统计分析中获得的知识的假设下评估算法的性能。Lopes de Prado 的一个例子:“例如,经济理论可能表明两个变量是协整的,而实证研究可能表明表征协整向量的值的范围。因此,研究人员可以模拟数百万年的数据,其中协整向量在估计范围内取许多不同的值。

可以看到,这里后面两种回测其实主要的目的在于通过引入不确定性,模拟出不同的历史行情去测试同一个模型,
这个过程类似于用对抗样本去攻击分类模型然后评估模型的稳定性,而这里的对抗样本是通过不同的手段模拟出的历史行情,从图片的视角来说,模拟产生的fake sample本身应该是有意义的,比如说猴子的图片加入噪声之后,从视觉上整体仍旧是一只猴子。

回测的细微差别


回测对每种策略都很重要,但是,它通常会导致过度拟合和错误的投资发现。希望如果做得好,它可以为我们提供必要的洞察力来验证或放弃我们的研究结果。因此,不用说,您必须注意您所使用的策略类型所带来的细微差别。即使我们所有的假设都是完美无缺的,并且我们考虑了所有可能的偏见,忽略这些细节也会使整个过程变得毫无用处。
分享到 :
0 人收藏

1 个回复

倒序浏览
要转行了?[惊喜]
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:394347
帖子:78870
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP