海龟交易法则（十二）历史测试的统计学基础

作者：期货达人
来源：期货学院
声明：转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本网联系，我们将及时更正、删除，谢谢。
用拙劣的方法作交易就像是站在暴风骤雨中的一叶小舟上学杂耍。这当然不是办不到的，但踏踏实实地站在地上玩杂耍则容易得多。
你已经知道根据历史数据测试结果与现实不符的某些主要原因，现在你可能会想，“既然这样，我怎么才能知道我究竟能得到多大的回报”，或者“我怎样才能避免第十一章中所说的那些问题”，或者“我怎样用正确的方法测试我的系统”。本章将讨论历史测试的一般原理。要掌握本章的内容，你必须透彻地理解上一章所说的那些预测偏差的根本原因。（期货开户所有品种，交易所手续费加一分，微信：一九八零一三三七六一二）因此，如果你在读上一章的时候只是在粗略地走马观花，建议你先仔仔细细地重新读一遍。
在观察历史模拟结果的时候，你对未来的趋势充其量只能有一个粗略的感觉。幸运的是，即使是粗略的认识也能赋予一个优秀交易者足够大的优势。要理解你这种认识的误差幅度（或者说粗略程度）会受到哪些因素的影响，你需要掌握几个基本的统计学概念，这些概念都是历史测试的理论基础。我不喜欢那种充斥着数学公式和冗长论述的书，所以我会尽量少用数学，争取简明阐述。
测试样本的有效性
恰当的测试既要考虑到影响测试解释力的统计学概念，也要考虑到这些解释的内在局限性。不恰当的测试可能导致你空有十足信心，但实际上测试结果的预测价值缺乏保证，甚至完全没有保证。事实上，糟糕的测试可能会给出完全错误的答案。
至于历史模拟为什么充其量只是对未来的粗略估计，大部分原因已经在第十一章中解释过。本章要讲的是如何提高测试的预测价值，在可能的范围内得到最好的粗略估计。
通过样本特征推断总体特征是统计学中的一个领域，也是历史检验结果的未来预测价值的理论基础。其中的核心观点是，如果你有足够大的样本，你就可以用这个样本的情况去近似推断总体情况。因此，如果你对某一种特定交易策略的历史交易记录有充分的研究，你就可以对这种系统的未来潜力得出结论。民意调查者们就是用这样的方法来推测广大民众的看法的。例如，他们可以从某个州随机抽取500个人进行调查，借以推测整个州的选民持何种观点。类似的，科学家们可以根据一个相对较小的病人群体来判断某种药物对某种疾病的治疗效果，因为这样的结论是有统计学依据的。
样本分析在统计学上的有效性受两大因素的影响：一个是样本规模，一个是样本对总体的代表性。从概念上说，许多交易者和系统测试新手知道样本规模的意思，但他们以为样本规模仅指他们所测试的交易次数。他们并不明白，假如某个法则或概念仅适用于少数几次交易，即使他们测试了上千次交易也不足以确保统计学上的有效性。
他们也常常忽视了样本对总体的代表性，因为这是个复杂的问题，没有一定的主观分析是很难衡量的。系统测试者假设过去的情况对未来的情况有代表性，如果这是事实，而且我们有足够大的样本，我们就可以从过去的情况中得出结论，并且把这些结论应用于未来的交易。但如果我们的样本对未来不具代表性，那我们的测试就毫无用处，对系统的未来表现也没有任何的指示意义。因此，这个假设至关重要。即使500人的样本足以告诉我们谁能当选新一任总统，而且使用代表性样本的误差幅度不过2%，在民主党全美大会中随机抽取的500个人能反映全美选民的意向吗？当然不能，因为这个样本并不能代表总体——它只包含民主党人，但真正的选民还包括很多共和党人。共和党人的投票对象也许与你的民意调查结果不一致。如果你犯了这样的取样错误，你也能得出结论，或许还是你希望看到的结论，但这并不一定是正确的结论。
民意调查者们知道，一个样本对整个总体有多大的代表性是个关键问题。用不具代表性的样本得出的调查结论是不准确的，而犯下这种错误的调查者会被炒鱿鱼。在交易世界中，这也是一个关键问题。遗憾的是，交易者与民意调查者们不同。民意调查者们大多都懂抽样统计学，但交易者们大多不懂。在这方面，交易者们的近期偏好也许就是最常见的迹象——交易者们只注重近期发生的交易，或是仅用近期的数据作历史测试，这就像是在民主党大会上抽取选民样本一样。
短期测试的问题在于，市场在这段较短的时期内可能仅出现了一两种状态，而不是我们在第二章中所说的全部4种状态。比如，如果市场一直处于稳定波动的状态，那么均值回归和反趋势策略的效果会非常好。但如果市场状态改变了，你所测试的方法可能就不再那么有效了。所以，你的测试方法必须尽可能地提高你所测试的样本对未来的代表性。
衡量指标的稳健性
在系统测试中，你要做的是观测相对表现，分析未来潜力，判定一个特定理念是否有价值。但这里面有个问题，那就是公认的那些业绩衡量指标并不是非常稳定，也就是说，它们不够稳健。这就使评判一个理念的相对优势变得非常困难，因为寥寥几次交易中的微小变化就能对这些不稳健指标的值产生巨大的影响。指标的不稳定性可能导致测试者过高地评价一个理念，或是盲目地抛弃一个本来很有潜力的理念——因为它受到了不稳定指标的影响，并没有展现出应有的潜力。
如果对数据稍作改变并不会显著影响一个统计指标，我们就说这个指标是稳健的。但现有的指标对数据的变化都太过敏感，因此都太不稳健。正因为如此，在我们对交易系统作历史模拟检验时，参数值的轻微变化就会带来某些指标值的大幅变化。这些指标本身就是不稳健的——也就是说，它们对数据的轻微变化太过敏感。任何对数据有影响的因素都会对测试结果产生过大的影响，这很容易导致数据拟合，很容易让你被不切实际的测试结果所迷惑。要想有效地测试海龟方法，我们要做的第一件事就是克服这个问题，找到稳健的业绩衡量指标。
在我最初参加海龟计划的面试时，比尔·埃克哈特就曾问过我这样一个问题：“你知道什么是稳健的统计指标吗？”当时我茫然地呆坐了几秒钟，然后坦白说：“我不知道。”现在我可以回答这个问题了。事实上，数学中有个专门研究不完全信息和错误假设的分支就叫作稳健统计学（robust statistics）。
从这个问题中明显可以看出，比尔对测试和历史数据研究的不完善本质有清醒的认识，对不确定性也颇有研究，这不仅在当时难能可贵，在今天依然如此。我相信这正是比尔能获得那种傲人业绩的原因之一。
这也又一次证明了里奇和比尔的研究和思维是多么超前于那个时代。我学到的越多，对他们对这个领域的贡献就越发敬畏。但我也惊讶地发现，相比起里奇和比尔在1983年的认识，现在的交易行业并没有太大的进步。
前面的章节把MAR比率、CAGR（平均复合增长率）和夏普比率用作相对表现的衡量指标。但这些指标并不稳健，因为它们对测试期的起始日和终止日非常敏感。这对短于10年的测试来说尤其明显。让我们看看将一次测试的起始日和终止日调整几个月会怎么样。假设我们从1996年2月1日而不是1月1日开始测试，一直测试到2006年4月30日而不是6月30日。也就是说，我们去掉了最初的一个月和最后的两个月。
在最初的测试期内，三重移动均线系统的测试得出了43.2%的回报率、1.39的MAR比率和1.25的夏普比率。但在修改了起止日后，回报率上升到了46.2%，MAR比率提高到了1.61，夏普比率也提高到了1.37。ATR通道突破系统的最初测试结果是回报率51.7%，MAR比率1.31，夏普比率1.39。起止日调整后，回报率攀升到了54.9%，MAR比率上升到了1.49，夏普比率提高到了1.47。
这三个指标之所以都这样敏感，是因为回报率指标对测试期的起止日非常敏感，而回报率又是MAR比率和夏普比率的要素（对MAR比率来说是CAGR，对夏普比率来说是月度平均回报率）。如果衰落发生在测试期的开端或结尾附近，最大衰落这个指标也会对测试期的起止日高度敏感。这会把MAR比率变得特别敏感，因为它的分子和分母部分都对测试起止日敏感，变化的效果也就在计算中成倍放大了。
CAGR之所以对测试起止日敏感，是因为它在对数刻度图中就等于曲线起点和终点的连接线的斜率，而改变起止日会令这条直线的斜率大大改变。我们可以从下图中看到这种效果。

如图，标有“修改后的测试起止日”的直线斜率高于标有“初始测试起止日”的直线。在最初的测试中，1996年1月间发生了一次衰落，2006年五六月又发生了一次。因此，我们在把测试期掐头去尾之后，也就去除了这两次衰落。这在上图中看得很清楚：把前后两端的衰落去掉后，代表CAGR的连线斜率大大提高了。
回归年度回报率
以上两条连线差异极大，但如果我们对所有可能连线上的所有点进行一次简单的线性回归，我们就能得到回报率的一个更好的衡量指标。如果你不喜欢数学，那我告诉你，回归线就是最符合散点分布趋势的一条线，有时候也被称为最佳拟合线。你可以把它理解为穿越所有散点中心位置的一条直线，回归过程就像是揪住散点图的两端将它不断拉伸，保持图形的整体方向不变，直到所有的起伏之处消失，聚合为一条直线。
线形回归线和它所代表的回报率为我们提供了一个新指标，我称之为RAR（regressed annual return，回归年度回报率）。这个指标对测试期起止日的变化远不像CAGR那样敏感。从下图中可以看到，当RAR的测试起止日改变时，回归线斜率的变化要小得多。

如果我们像比较CAGR那样比较一下测试期变化前后的RAR，我们会发现RAR这个指标对测试起止日的变化不像CAGR那样敏感，因为前后两条回归线的斜率差异要小得多。初始测试的RAR是54.67%，修改起止日之后变为54.78%，仅仅提高了0.11%。相比之下，CAGR却从43.2%上升为46.2%，有3.0%的变化。对这次测试来说，CAGR对测试起止日的敏感度几乎是RAR的30倍。
用在夏普比率中的月度回报率指标同样对这样的变化非常敏感，因为我们去掉了前后两端的三个表现不佳的月份，平均回报率当然会受到影响，尽管影响程度不像CAGR那样大。在夏普比率的分子中用RAR指标更好。
正如前面所说，用于计算MAR比率的最大衰落指标也对测试起止日的变化高度敏感。只要最大衰落发生在测试期的前后任意一端，MAR就会受到很大的影响。最大衰落只是净值曲线上的一个点，所以你并没有看到其他一些有价值的数据。一个包含更多衰落期的指标要好于这个指标。假如一个系统有32%、34%、35%、35%和36%这5次大幅衰落，而另一个系统的5次大衰落分别为20%、25%、26%、29%和36%，那么后者显然好于前者。
另外，衰落程度只是个一维的指标，并不是所有的30%衰落幅度都有同样的意义。如果一个系统仅经历了两个月的衰落就转而创出新高，我并不会太在意，但一次持续两年的衰落就是另外一回事了。恢复时间或衰落期的长度本身也是非常重要的。
稳健风险回报比率
为了把上述所有因素都考虑在内，我发明了一个新的风险回报比指标，我称之为稳健风险回报比率（robust risk/reward ratio）。我也喜欢称之为R立方，因为我的骨子里还是有点技术遗风，习惯于用这样的术语。R立方的分子就是RAR，分母也是个新指标，我称之为长度调整平均最大衰落（length-adjusted average maximum drawdown）。这个分母指标有两个要素：平均最大衰落和长度调整。
平均最大衰落就是5次最大衰落幅度的平均值。长度调整就是将这5个衰落期的平均天数除以365天，然后用这个结果乘以平均最大衰落。平均衰落天数的计算原理与平均衰落幅度相同，也就是将5次衰落期的天数相加再除以5。因此，如果RAR是50%，平均最大衰落是25%，而平均衰落长度是1年，也就是365天，那么R立方就等于2.0——也就是50%/（25%×365/365）。作为一个风险回报比指标，R立方从程度和时间这两个角度考虑了风险问题。它所使用的指标对测试起止日的变化并不是那么敏感，因此它比MAR指标更稳健——也就是说，它不太容易随着数据的轻微变动而发生大的变化。
稳健夏普比率
稳健夏普比率就是RAR除以年度化的月度回报标准差。这个指标对数据变化的敏感度较低，原因与RAR的敏感度低于CAGR的原因相同，上面已经说过。如下表所示，稳健指标对测试起止日的变化远不如普通指标敏感。

很明显，稳健指标的敏感度要低于现有的指标。R立方指标虽然对首尾两个大衰落的去除也很敏感，但敏感度要低于MAR比率。单次衰落的影响被R立方指标的平均化处理缓和了。所有的稳健指标受数据变化的影响都要小于相应的普通指标。假如新的测试没有改变最大衰落，R立方将与RAR一样只有0.4%的变化，而且与普通指标的差距将更富戏剧性，因为MAR的变动幅度将达到5.2%（等于它的分子CAGR的变化幅度），远远大于RAR的0.4%。
我们从第七章的6种基本交易系统的业绩对比中也能看出稳健指标的优越性。请回忆一下，当我们添加了2006年7~11月这5个月的数据后，所有6种系统的表现都显著下降。但从下表和下下表中可以看出，在这最后几个月的相对不利条件下，稳健指标的状况要比普通指标好得多。下表对比了这些系统的RAR和CAGR变化情况。

在这段时间内，RAR的变动幅度不到CAGR的1/6。这表明RAR指标比CAGR要稳健得多，也就是说，它在实际交易过程中会表现得更加稳定。R立方与MAR比起来同样如此。下表对比了这些系统的R立方和MAR变动幅度。

R立方在这段时间内的变动幅度大约是MAR比率的1/2。
相比不稳健指标，稳健指标也不太容易受到运气因素的影响。比如，如果一个交易者因为恰好外出休假而幸运地避开了一次大衰落，他的MAR比率可能比同行们高一些，但这种运气因素会在R立方上暴露出来，因为单单一次事件对R立方的影响并没有这么大。如果你用的是不稳健指标，那么你所得到的理想结果更有可能是好运所致，而不是可以利用的重复性市场行为模式。这也是使用稳健指标的另一个原因。
使用稳健指标还能帮助你避开过度拟合的危害，因为它们不太容易因为数据的微小变动而发生大的变化。请回忆一下，我们在讨论过度拟合现象的时候曾经拿双重移动均线系统做了个试验，添加了几条法则以提高它的表现。意在降低衰落程度的新法则令系统的CAGR从41.4%上升到了45.7%（涨幅10.3%），MAR比率从0.74上升到1.17（涨幅60%）。相比之下，稳健的回报率指标RAR仅从53.5%上升到53.75%，涨幅不过0.4%；稳健的风险回报比指标R立方从3.29上升到3.86，仅提高17.3%。可见，稳健指标不太容易因为少数交易的调整而呈现大的改进。因此，由于曲线拟合手段往往只是对少数交易有益，如果你使用稳健指标，你就不太容易用曲线拟合的手段来显著改善系统的表现。
下面让我们考虑一下其他几个对历史检验的预测价值有影响的因素。
样本的代表性
我们的样本交易和检验结果对未来有多大的代表性是由两大因素决定的：
市场数量：我们所测试的市场越多，我们就越有可能将市场的各种不同状态包含在内。
测试时间：时间跨度较长的测试会涵盖更多的市场状态，而且更有可能将具有未来代表性的历史时期包含在内。
我建议你把你能得到的所有数据都测试一遍。买数据花不了太多的钱，但如果你没有经过对多个市场和多个年头的充分测试就盲目地相信一个系统，那你的风险可就大了。假如你的系统第一次碰上某种市场状态就失效了，但这种状态在过去的20年中已经出现过三四次，只不过你并没有检验过它，你不会觉得自己很愚蠢吗？
年轻的交易者特别容易犯这种错误。他们相信他们所看到的状态就是市场整体状态的代表，而往往意识不到市场具有周期性和多变性，经常回归到过去曾经出现过的状态。就像在生活中一样，年轻人往往看不到历史的价值，就因为历史发生在他们出生之前。年轻是好事，但不要太愚蠢——一定要学历史。
还记得吗，在互联网泡沫时代，每个人都是短线高手，每个人都是天才。但当泡沫戛然破裂，曾经大获成功的方法不再有效时，这些天才又有几个能幸存下来？如果他们作过一点测试，他们就会知道他们的方法是以那个黄金时期的特殊市场状态为依托的，因此当这些状态不再存在时，他们会放弃这些方法。也许，他们从一开始就会采用适用于所有状态的稳健方法。
样本规模
样本规模这个概念很简单：你需要一个足够大的样本才能进行有效的统计学推理。样本越小，推理就越粗糙；样本越大，推理就越准确。这方面不存在某个神奇的标准数字，样本就是越大越好，越小越糟。不到20的样本规模会导致严重的偏差；超过100的样本规模更具预测价值；达到数百的样本规模也许对大多数测试来说就够用了。有些公式和方法会明确地规定样本的必要规模，但遗憾的是，这些公式都不是为交易世界中的那些数据设计的，因为交易世界不存在精细而又规律的潜在收益分布曲线（就像图4–3中那种女性身高分布曲线一样）。
不过，真正的挑战并不在于确定样本的必要规模，而在于当你考虑某个并不是经常发挥作用的法则时，你很难评判从过去的数据中得出的推论。因为对这样的法则来说，你没办法得到足够大的样本。以大泡沫濒临破裂时的市场行为为例，你可以想出某些针对这种市场状态的法则，甚至可以检验这些法则，但你不可能收集到作出决策所需要的大样本。在这种情况下，我们必须明白我们的测试结果不具备太大的说服力，因为我们的样本比必要样本小得多。这个问题也存在于前文所说的季节性趋势的分析中。
在你测试一条新法则时，你必须衡量一下这个法则的应用频率。如果一条法则在整个测试期内只有4次生效，那么从统计学上说，你无从判断这条法则是否有用，你所看到的效果很有可能只是随机性的。有个办法可以解决这个问题：你可以设法将这条法则一般化，提高它发挥作用的频率。这样一来，样本规模就会扩大，测试的统计学说服力也就相应地提高了。
有两种常见的做法可能将小样本规模的问题进一步放大：一个是单一市场最优化，一个是系统设计过于复杂。
单一市场最优化：单独应用在各个市场中的最优化方法更难用足够大的样本进行测试，因为单个市场上的交易机会要少得多。
过于复杂的系统：复杂的系统有很多法则，有时候很难判断某一条法则发挥作用的频率或程度。因此，如果用过于复杂的系统进行测试，我们更难对测试结果的说服力抱有信心。
出于这些原因，我不建议针对单个市场进行最优化，而且我更喜欢具备统计学意义的简单理念。
从虚拟测试到实战交易
你怎么判断你在实际交易中可能获得什么样的成果？对历史测试来说，这或许是最有趣的问题之一。
要想得到有意义的答案，你必须理解影响系统表现的因素，使用稳健指标的必要性，以及采集足够大的代表性样本的重要性。一旦你做到了这一点，你就可以开始思考市场变换的潜在影响，思考为什么连老练的交易者设计的优秀系统也会经历业绩的盛衰起伏。你不可能知道，也不可能预见到一个系统的表现会怎么样，这是现实。充其量，你只能借用有效的工具来判断系统的潜在效果，以及影响这种效果的因素。
幸运的系统
如果一个系统在最近一段时间表现得特别出众，这有可能是个运气问题，或许市场对这种系统来说正处于理想的状态中。一般来说，这种冒尖的系统在好时期过后很容易转入困难时期，不能指望它在未来会重现这种好运的表现。这也许会发生，但你不能寄希望于运气。你更有可能经历业绩的下滑。
参数调整检验
在决定采用一个系统之前先体验一下参数的作用是个很好的习惯，我称之为参数调整检验。挑出几个系统参数，大幅调整参数值，比如20%~25%，然后看看效果怎么样。以十一章第二和第三张图的最优化曲线为例，你可以把参数值调整到远离最优点的地方。对这个布林格通道系统来说，我想看看把350天和–0.8的最优化退出标准变为250天和零会怎么样。结果，参数的调整令RAR从59%变为58%，R立方从3.67变为2.18，这是相当显著的变化。当你从历史数据测试转向市场中的实战时，你很有可能看到这样的戏剧性变化。
滚动最优化窗口
还有一个方法可以帮助你直接体验从虚拟测试到现实交易的转变，那就是滚动最优化窗口（rolling optimization window）。随便选择8~10年前的一天，用这一天之前的所有的数据进行最优化——要使用你平常所用的最优化方法，作出你平常会作出的权衡决策，就如同你只有截至那一天的数据。当你得出了“最优化”参数值后，再用这一天之后两年内的数据检验一下这些参数值。系统在这两年内的表现怎么样呢？
接下来，把测试终点向后顺延两年（也就是6~8年前的一天），再测试一次。比起上一次测试和上一个滚动窗口，这一次有什么变化？比起你最初的参数值，也就是用所有可用数据计算出的最优值，这一次又有什么不同？继续向后顺延，重复这个程序，直到延伸至今天。
我用这个方法对布林格通道系统进行了最优化。在测试过程中，我对三个参数的值都进行了大范围调整检验，然后根据最优位置（一般来说接近于R立方值达到最大的那个点）选出最优值。我分别做了5次10年期检验，最后的滚动最优化结果如下表所示。

可以看到，在每一个滚动期中，实际表现都与测试值大相径庭。另外，不同滚动期的最优值也不尽相同。这证明了测试结果的不精确性，也反映了从虚拟测试转向实践交易时的不确定性。
蒙特卡洛检验
蒙特卡洛检验是判断系统稳健性的一种方法，可以回答这样的问题：如果把历史稍作变化会怎么样？未来又会怎么样？通过蒙特卡洛检验，你可以用代表历史实际数据的一系列事件来生成另外一种略有变化的别样景象。
有些方法用随机数据来检验某种特定现象，蒙特卡洛检验就是这类方法的统称。对不可能或很难用数学方法来精确描述的现象来说，这种检验最为有用。蒙特卡洛这个词取自于摩纳哥的那座以赌博业闻名的城市，因为蒙特卡洛的赌场中有很多由随机事件决定结果的游戏：比如轮盘赌、掷骰子、21点等。研制原子弹的那些科学家们曾在曼哈顿计划中使用这种方法，它的名字就来自于那个时期。
这些科学家们必须确定铀的裂变特征才能知道制造一颗原子弹需要多少铀。由于浓缩铀昂贵之极，他们承受不起判断失误的代价。如果原子弹因为铀太少而无法引爆，他们会白白浪费几个月的时间，更别说浪费多少钱了。同样的，如果他们高估了铀的用量，他们也会浪费几个月的测试时间。不幸的是，铀原子在炸弹内部的交互作用太过复杂，用当时的方法不可能准确地建模。电脑可以完成这个任务，但那个时候还没有现在这样的电脑。
一次原子裂变会释放出大量中子，一定比例的这些中子就能引发另一次原子裂变。为了确定可裂变铀的必要用量，科学家们必须知道这个比例是多少。著名物理学家理查德·费曼（Richard Feynman）想出了一个办法：让一组数学家来研究一个中子在交互作用中的特征，据以确定这个中子究竟是被另一个原子核吸收，还是会分裂出另一个原子。费曼意识到，他们可以用随机数字来代表原子裂变时所释放出的各种中子。测试上数千次，他们就能看出铀裂变特征的准确分布规律，也就能确定铀的必要用量。费曼知道，尽管他无法预知未来，因为整个过程太过复杂，但他起码能从他熟悉的角度出发来抓住问题的主要方面，通过用随机数字模拟中子属性来获得整个问题的答案。这样，他不必准确地预测到每一个原子在每一点的运动，就能掌握铀裂变特征的本质。
别样景象
市场甚至比核裂变反应还要复杂。市场是由成千上万的人组成的，每个人都会根据自己的经验和判断来作出决策，这些决策比中子的运动特征还难预测。幸运的是，就像费曼用随机数字来分析铀一样，我们也可以借助随机数字来更好地认识一个交易系统的潜在特征，即使我们无法预见到未来。假如把过去的事情稍作变化，历史会变成什么样子？我们可以用蒙特卡洛检验来检验这种别样景象。
要用蒙特卡洛检验来生成别样景象，我们有两种常见方法可用：
交易调整：随机性地改变实际模拟结果中的交易命令和起始日，然后用调整后的交易命令和这些交易的损益水平来调整资产净值。
净值曲线调整：在初始净值曲线中随机选择一些部分，将它们组合成新的净值曲线。
在这两种方法中，净值曲线调整所生成的别样净值曲线更具现实性，因为随机改变交易命令的蒙特卡洛检验很容易低估衰落的可能性。
最大衰落总是发生在大趋势的末端或资产呈增长趋势的时期。因为在这些时候，市场之间的相关性要高于平常。期货和股票市场都是如此。当大趋势在走到尽头后崩溃并逆转时，似乎所有事情都开始对你不利，即使是平常看似不相关的市场，也开始在这些起伏不定的日子相互挂钩了。
由于交易调整法去除了交易和日期的关联性，它也去除了多个同时逆转的交易对净值曲线的不利影响。这意味着蒙特卡洛检验中的衰落程度和频率要比现实中低。以2006年春季的黄金和白银走势为例。如果你检验的是一个同时涉足这两个市场的趋势跟踪系统，那么交易调整意味着你在这两个市场上的衰落损失将发生在不同的时期，这等于缓和了每一个市场上的衰落程度。事实上，这种效果也会延伸到其他几个相对意想不到的市场上，比如食糖。像黄金和白银一样，食糖市场在2006年5月中旬至6月中旬的20天内也发生了严重的衰落。因此交易调整不可取，因为它低估了中长期系统在实际交易中的衰落水平。
1987年的股崩也是这种现象的一个例子。在欧洲美元大幅跳空高开的那一天，许多平常并不相关的市场也一起剧烈跳空，令我损失惨重。进行交易调整的蒙特卡洛检验容易淡化这种非常现实的事件，因为它会将交易日期分散化，以至于它们的不利变化不会再发生在同一天。
许多有蒙特卡洛检验功能的软件可以用净值曲线调整法生成新的曲线，但它们没有考虑到另外一个重要的问题。根据我的测试和实践经验，我发现大趋势末端的衰落时间和程度远不是随机模拟结果可以比拟的。在这些大衰落期间，趋势跟踪系统的净值曲线呈现出序列相关性——也就是说，今天的资产变化与前一天的资产变化是相互关联的。更简单地说，坏日子往往集中出现，接踵而来，这并不是随机性事件的特征。
仍以2006年春季的黄金、白银和食糖市场为例，如果你调整的仅仅是资产净值的每日变化，那么从5月中旬到6月中旬的一连串剧烈变化将会消失，因为如果你只是随机性地从概率分布曲线甚至是真正的净值曲线中抽取数据，这样的巨变不太可能集中爆发。
考虑到这个问题，我们公司的模拟软件在调整净值曲线的时候也允许随机截取多个交易日的整段曲线，而不仅仅是单个交易日的数据。这样，模拟净值曲线就会把集中而来的不利变化保留下来，如实反映实际交易中的状况。我在测试中采用了截取20日整段曲线的调整方法，我发现，这种方法可以把净值曲线的自动序列关联保留下来，让模拟结果更具现实预测价值。
别样净值曲线
当我们用蒙特卡洛检验模拟出了别样净值曲线时，我们如何利用它们呢？事实上，我们可以用这些新曲线为某一个特定指标建立业绩分布图。假如未来的情况与我们在模拟中生成的别样景象有任何相似之处，那么未来的业绩潜力就反映在了这个分布图中。下图就是这样一个分布图。我们模拟生成了2 000条别样净值曲线，计算了每一条曲线的RAR，然后在图上画出了结果的分布状况。

图中可见，有一条垂直线在图形上部穿越了曲线，它所对应的RAR就是置信度90%的RAR值：也就是说，所有模拟曲线中有90%的RAR高于这个值。对本例来说，2 000次模拟中有90%得出了大于42%的RAR。
像这样的图非常有用，因为你可以从中认识到未来不可确知，有很多种可能性。不过你也不要过于深究这类报告的细枝末节。不要忘了，这些数据来自于模拟的净值曲线，而净值曲线以历史数据为基础，自然摆脱不了第十一章所说的所有那些潜在缺陷。如果最初的测试就很糟糕，蒙特卡洛检验也不会是救世主，因为它本身就源自于最初的测试，不可能超然于原始数据之上。如果最优化矛盾导致RAR被高估了20%，那么蒙特卡洛检验所模拟出的别样净值曲线同样会将RAR高估20%，因为它使用的是同样的最优化参数值。
综上所述可知，历史测试充其量只是对未来趋势的粗略估计。稳健指标对未来表现的预测价值要高于较为敏感的指标，但仍然谈不上精确。如果某个人号称你的回报一定能达到某种水平，这个人要么在撒谎，要么根本是个外行；假如这人正在向你推销某样东西，我强烈怀疑他属于前一种情况。
下一章将介绍一些保护性的交易方法。使用这些方法，你的交易会更加稳健，也就是说，你不再那么容易遭受大起大落之苦。

海龟交易法则（十二） 历史测试的统计学基础

海龟交易法则（十二）历史测试的统计学基础