基于流形学习的高频交易标记预测模型

论坛 期权论坛 期权     
期权匿名问答   2022-10-22 18:11   8440   0
引言:高频交易(HFT)在过去几十年里不断发展并主导着交易。然而,高频交易标记预测是现有金融科技文献中很少研究的方向。为研究这一问题,本文介绍Han等(2020)提出的一种新的基于流形学习的高频交易标记预测模型,即M-SCAN模型。
第一部分:高频交易标记预测


高频交易标记
在高频交易中,交易标记是一个对收益获取有意义的买入或卖出点,考虑到高频交易往往按秒处理订单,对交易标记的衡量也按照较短的时间区间(一分钟)定义,假设在一个交易时间区间 [t_0,t] 内有一系列交易 \{x_i\}^t_{t_0} ,若在时刻 t 的一笔交易 x_t 的价格变换比率大于临界值 \eta(\eta=0.5\%) ,即 \frac{|p(t)-p(t_0)|}{|p(t_0)|}\geq \eta (其中 p(t_0) 和 p(t) 是在时刻 t_0 和 t 的交易价格),那么该笔交易就被认为是一个交易标记。根据在给定交易周期内的价格变换比率,交易标记可以分为全局标记和一般标记。全局标记是指交易的价格变换比率较大的交易,它可以被认为是更具收益的买入或卖出点。而一般标记是指交易的价格变换比率相对较小的交易,此类交易是收益较少的买入或卖出点,但一般标记比全局标记更常出现。
预测交易标记有助于揭示潜在的交易动态,了解不同股票的不同交易机制,从而构建高效的交易系统,但高频交易数据观察量大但变量少的特点给交易标记的预测带来挑战,Berradi和Lazaar(2019)提出使用以主成分分析法为代表的降维模型来发现交易标记,尽管高频交易的第一个主成分可以解释超过60%的数据,但是主成分分析法作为一种全局数据分析方法,只能抓取全局的数据行为而不能获取局部数据行为,由此,高频交易标记预测需要新的机器学习方法来更好地获取数据交易行为从而更精确地预测交易标记。本文介绍了Han等(2020)提出的一种新的预测高频交易标记的方法,即M-SCAN模型。

数据集

作者从IT、银行、零售、服饰等四个行业中选取了20支大盘股股票在2/1/2019-2/22/2019十四个交易日的股票相关特征信息作为数据集,每个行业分别选取了五只代表性的股票。图1展示了用高斯核函数密度估计的20支高频交易股票的收盘价概率密度函数图,从图中可以看出不同股票具有不同的交易行为,且几乎没有股票展现出正态分布或对数正态分布的趋势。为更好地理解高频交易数据的交易行为,文章提出使用方差集中比率(Variance Concentration Ration, VCR)
\beta(X)=\frac{s_1}{\sum^p_{i=1} s_i}\\
来衡量方差如何沿第一个奇异值方向分布,其中 s_i 是 X 的第 i 个奇异值, i=1,2,\cdots,p 。图2展示了来自四个行业高频数据的VCR计算结果,图中上部分是20支股票的VCR计算值,下部分是VCR的行业分组结果。从图中可以看出,除JCP的VCR值为98.32%外,其余股票都能获得99.75%及以上的VCR值,这说明所有股票的方差都集中在第一个奇异值方向上分布。



图1:20支高频交易股票的价格概率密度函数图



图2:高频交易数据集的方差集中比率(VCR)

第二部分:模型架构

如上所述,交易标记由一系列具有显著价格变化的交易组成,这些显著的交易行为可以通过分析高频交易数据的内在结构来发现,但直接检验多维高频数据的内在结构较为困难,因此文章引入流形学习,建立M-SCAN(Manifold Scanning)模型,通过计算低维流形嵌入来保留反映显著数据交易行为的原始数据的内在几何特征,由此可以在原始高频数据的流形嵌入中识别交易标记。M-SCAN模型主要由三个部分组成(如图3所示),即流形学习(Manifold Learning)、流形嵌入聚类(Manifold embedding clustering) 和离群值分析(Outlier analysis)。其中,流形学习计算输入高频数据的局部等距流形嵌入来模拟高频交易数据行为,流形嵌入聚类从嵌入中识别异常值,离群值分析从离群值中预测交易标记。



图3:M-SCAN模型架构

1.流形嵌入

给定一个又 p 个特征组成的高频数据集 X=\{x_1,x_2,\cdots,x_n\}^T,x_i \in \mathbb{R}^p ,流形学习通过最小化损失函数 \varphi(X,Y) 来计算低维流形嵌入 Y=\{y_1,y_2,\cdots,y_n\},y_i\in\mathbb{R}^l,l\ll p . 由于图2中几乎所有数据的VCR值都接近99%,因此高频数据的方差应当集中在 \mathbb{R}^l ,因此可以只考虑高频数据二维的流形嵌入,即 Y\in \mathbb{R}^{n \times 2} .
不同的流形学习方法可能会产生完全不同的流形嵌入和不同的交易标记预测结果。作者采用局部线性嵌入(Locally Linear Embedding, LLE),通过建立一个等距可收缩的邻域保持映射来生成高度非线性嵌入并保留原有数据的内在结构。与等距特性映射(Isometric Feature Mapping, ISOMAP)和核主成分分析法(Kernal Principal Component Analysis, KPCA)相比,LLE能很好地对局部数据行为建模,LLE假设每个点都可以由它的邻域以线性组合的形式表示,并使用表示固有邻域结构的权值来重构嵌入中的对应点,由此LLE在定位那些价格波动较大的标记方面具有内在优势。

2.流形嵌入聚类

通过聚类方法可以收集嵌入中所有的异常值作为潜在的标记,文章使用基于密度的带噪声应用空间聚类(Density-Based Spatial Clustering of Applications with Noise, DBSCAN)方法来对嵌入进行聚类并识别离群值簇,DBSCAN将嵌入点划分为核心、可达和异常三类来判断它们是否属于一个特定的聚类,其中核心的嵌入点会形成聚类,可达的嵌入点会形成聚类的边缘,异常的嵌入点被认为是聚类的噪声。理论上来讲,由于异常的嵌入点更可能是全局标记,因此它可以更精确地标记交易的高峰和低谷。与基于距离的异常值排序方法相比,DBSCAN不会将异常值与常见交易的一些嵌入点混淆。此外,与中心聚类方法(如K-means)相比,DBSCAN自动确定聚类的数量,而不需要将其作为一个预设的参数。综上,DBSCAN聚类具有通过收集异常值来拟合交易标记检测的内在优势。

3.异常值分析

异常值分析旨在从收集到的异常值中检索交易标记。给定一个在异常值数据集 O 中价格为 p(t) 的交易 e ,异常值分析通过检查它左右的邻域以及它的价格变化比率是否在可接受的范围内来评估该笔交易是否是一个潜在交易标记。也就是说,计算 \delta(t)=\left( p(t)-p_l(t)\right)\times \left( p(t)-p_r(t) \right) ,其中 p_l(t) 和 p_r(t) 分别是交易 e 的左右邻域,如果 \delta(t)\geq0 ,那么继续评估该笔交易的价格变化比率是否超过了临界值 \varepsilon=0.1\% ,即 \frac{|p(t)-p_l(t)|}{|p_l(t)|}>\varepsilon \vee \frac{|p(t)-p_r(t)|}{|p_r(t)|}>\varepsilon ,若成立则认为是交易标记,若不成立则反之。

4.预测结果有效性评估

为评估交易标记预测的有效性,文章引入均方误差(Mean Square Error, MSE): MSE=\frac{1}{|M|}\sum_{\hat{x}_j\in M,x_j\in S}(p_{x_j}-\hat{p}_{x_j})^2\\其中 \hat{p}_{x_j} 是预测标记 \hat{x}_j 的价格, p_{x_j} 是预测标记 x_j 的价格。 MSE 通过量化预测标记和真实值之间的距离来评估预测标记是否为真实交易标记。
       考虑到交易标记可以分为全局标记和一般标记,作者使用图4和图5中展示的算法来分别对全局标记和一般标记的预测结果进行有效性评估。 MSE 的最终值为 MSE_{general} 和 MSE_{global} 之和, MSE 值越小则说明它的交易标记预测结果越好。



图4:全局标记预测结果有效性评估算法



图5:一般标记预测结果有效性评估算法

第三部分:结果与讨论

1.M-SCAN交易标记预测的可视化

图6展示了对MSTF和BAC两支股票使用三种不同流形学习方法的M-SCAN可视化结果,图中不同颜色表示不同的聚类。图中(a)和(b)是使用t-分布随机邻域嵌入(t-Distributed Stochastic Neighbor Embedding, t-SNE)的可视化结果,从图中可以看到t-SNE在将具有相似信息的数据点聚合到同一组方面具有优势,但t-SNE识别出的异常值较少;(c)和(d)是使用KPCA嵌入的可视化结果,KPCA将所有异常值包围在一个光滑的椭圆形内,但KPCA通过核技巧增加的特征产生了过多的异常值,聚类在增加解释难度的同时也没有表现出良好的一致性;(e)和(f)是使用LLE嵌入的可视化结果,LLE实现了一种替代的可视化和聚类以在嵌入中保持良好的局部邻域。与t-SNE相比,LLE不仅识别了不同聚类的更多异常值从而提供了更多的交易标记候选值,而且LLE较低的复杂度也让它获得了比t-SNE更快的计算速度(如图7所示)。
由于ISOMAP和SPCA方法与PCA方法的全局预测结果较为相似(如图8所示),图9仅展示了四种不同的流形方法在全局标记预测的结果对比,图中左侧和右侧分别是对股票MSFT和BAC的全局标记预测结果,该结果与  值的计算结果一致,即LLE预测的全局标记与真实值的吻合度较高,与其他流形方法相比呈现出明显的优势。



图6:高频股票数据的M-SCAN可视化结果(以MSFT和BAC股票为例)



图7:六种降维模型的算法速度对比



图8:六种降维模型的全局预测MSE值对比



图9:四种流形学习方法的全局标记预测结果对比(以MSFT和BAC股票为例)

2.高频交易数据熵分析

图10比较了四种行业中每种股票在不同流形学习方法下的全局标记和一般标记的 MSE 值。总体来看一般 MSE 值都远小于全局 MSE 值。为研究这一差异,作者引入数据熵: h(X)=-\sum^p_{i=1} u_i \, log_2 \, u_i\\其中 u_i=\frac{s_i}{\sum^p_{i=1}s_i} , s_i 是 X 的第 i 个奇异值。熵反映了高频数据集的随机程度。熵值越大,数据集的随机程度越高,即交易中异常值越多,导致数据的方差越大。因此从高熵值的数据集中生成的更多异常值可以提高发现交易标记的可能性。
       图11为所有高频数据集的熵值,除JCP外,其余数据集的熵值都相对较小。比较图11和图10的数据可以发现高熵值的数据集比低熵值的数据集更容易获得较优的全局和一般 MSE 值,如JCP具有最高的熵值,对应地,它的全局和一般 MSE 值也相对较小。同样地,服饰行业的数据集熵值相对高于其他行业数据集,它也相应获得较小的全局和一般 MSE 值。



图10:全局标记和一般标记的MSE值对比



图11:高频数据集的数据熵

3.DBSCAN与其他聚类算法的比较

图12展示了对六支股票使用不同聚类算法进行全局标记预测的MSE值对比,四种聚类方法分别为:DBSCAN、K-Maens、OPTICS(Ordering Points To Identify the Clustering Structure)、HDBSCAN(Hierarchical DBSCAN)。文章研究结果发现K-Means聚类的标记预测结果较差,且错过了很多显著的全局标记(如图13);OPTICS的全局标记预测结果较差,但一般标记预测结果与DBSCAN表现齐平;HUBSACN的一般标记和全局标记预测结果都差于DBSCAN,但HDBSCAN在某些股票(如GOOG和AEO)的全局预测上较优。考虑到全局预测在交易标记预测中的重要性,可以得出结论认为DBSCAN聚类在M-SCAN模型中的表现由于其他同类聚类方法。



图12:四种聚类算法的全局标记的MSE值对比



图13:四种聚类方法的全局标记预测结果对比(以MSFT股票为例)

第四部分:总结

       本文主要介绍了Han等(2020)提出的一种用来预测交易标记的M-SCAN模型,该模型主要首先利用LLE流形嵌入方法计算输入高频数据的局部等距流形嵌入来模拟高频交易数据行为,然后使用DBSCAN聚类方法从嵌入中识别异常值,最后使用离群值分析从离群值中预测交易标记。作者通过验证发现局部线性嵌入(LLE)方法在预测精确度和算法速度方面展现出与其他同类方法相比明显的优势,而高熵数据集比低熵数据集更有可能拥有更好的全局和一般 MSE 值,此外,作者提出的VCR和熵分析除了揭示高频交易的交易动态外,还提供了更直接的方法来量化高频交易数据。本文的研究为交易标记的发现提供了一种新的方法,文章的研究结果可以帮助识别未来交易中潜在的高频交易标记,从而有助于建立一个更高效和定制的高频交易系统。
市场有风险,投资需谨慎。以上陈述仅作为对于历史事件的回顾,不代表对未来的观点,同时不作为任何投资建议。
参考文献
[1]Han H, Teng J, Xia J, et al. Predict high-frequency trading marker via manifold learning[J]. Knowledge-Based Systems, 2021, 213: 106662.
[2]Berradi Z, Lazaar M. Integration of principal component analysis and recurrent neural network to forecast the stock price of casablanca stock exchange[J]. Procedia computer science, 2019, 148: 55-61.
[3]At-Sahalia Y, Xiu D. Principal component analysis of high-frequency data[J]. Journal of the American Statistical Association, 2019, 114(525): 287-303.
分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:394347
帖子:78870
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP