不吹不黑 | 聊聊为什么要用99%精度的数据回测

Discussion in 'Model and Algorithm' started by JackSplor, Feb 3, 2018.

    • 写在前面的话
      文字并不具备精确传递信息的能力。除了程序员和律师等少数群体,很少人能保证自己说的东西能在一句话中被清晰传递的。所以,带着思考阅读从而帮助完善你的知识体系,改变你的行为,这才是您耗费时间,阅读本篇文章的意义。

      因此,在阅读本篇文章之前,我希望您能放下心里已有的成见,否则就算您通篇读完,留下的也只是带有您个人偏见的理解。您获得的多少并不取决于读了多少,而取决于您以空杯的心态,思考了多少、多深。

    • 什么是Bar数据
      在讲之前,先讲一下Bar数据。所谓的Bar数据,泛指普通的 K 线。在单独的每个Bar上面包含开盘价、收盘 价、最高价、最低价、成交量及时间。所有的Bar按照不同周期组合,并按照时间从先到后进行排列,由此形成为序列数据,整个序列称之为Bar数据。

      [​IMG]

      如果交易策略是基于Bar数据回测。按照Bar数据的Bar数目,从第一个Bar到最后一个Bar,依次进行计算,如果公式中出现了调用Bar数据函数的,则取出当前Bar的相应值,进行运算。如下图箭头所示,公式执行从上至下,Bar从左到右执行。

      [​IMG]

      Bar数据应用于非即时发单策略,是没有问题的。比如:当前条件成立,那么就在下根Bar发单。由于Bar数据量往往不是很大,在上百种上千组合回测或优化时,速度非常快。

    • bar数据回测的弊端
      大多数量化软件中,调用那个级别的数据,就是哪个级别的Bar。5分钟周期级别的Bar就是5分钟时间序列的开高低收等。一般最小级别是1分钟,也就是回测时只能使用1分钟级别粒度的数据。

      那么问题来了,1分钟以下的数据变动是无法得知的。这种数据与当时的实际市况有所差别,一个个小的差异积累起来就造成了与真实结果的巨大差异。

      [​IMG]

      就拿上图中,箭头所指的Bar来说:这是根带上下影线的阴线,图表级别为60分钟,你认为在60分钟里,价格怎么运动,才最终形成这根Bar。

      答案是:有非常非常多种可能。它有可能开盘就先上涨,创造出一个上影线。然后转头向下,创造出一个下影线。然后再转头向上收盘;它也可能开盘就砸盘,直接创造出一个下影线。然后转头向上,创造出一个上影线。然后再转头向下收盘。总之,在这根Bar最终形成之前的60分钟内,价格的波动有很多种可能。

      如果即时策略用Bar数据回测,回测引擎只是根据Bar的开高低收等,做计算。因为回测引擎并不知道价格是如何跳动才形成最终的Bar。在Bar中,价格即有可能先上后下,也有可能先下后上。

      还有一个更为重要的弊端。在Bar回测中,并没有参考盘口数据,比如:买一价和卖一价。在Bar数据回测中,只要触发开平仓的价格在最高价与最低价之内,都能成交。但此时此刻如果恰好没有对手盘的话,那么Bar回测引擎在撮合的时候是检测不出来的。一次两次影响不大,但只要Bar的数据足够多,就足以产生以假乱真的虚假绩效报告。

    • 举个栗子
      我举一个很简单的例子做范例说明。策略描述:当均线往上时往上触碰现在K线高点时作多、当均线往下时往下触碰现在K线低点时放空,另外加上移动出场─当获利大于等于10点后,折返获利1%就出场。

      代码如下:

      [​IMG]

      回测如下:

      [​IMG]

      如果你在开发交易策略的时候看到这个现象就很兴奋的以为自己发现圣杯的话... 那么你就想错了。

      钱有这么好赚就好了啦=_=。这样的回测报表一整个就是垃圾!因为那些出场点位几乎可以说都是做不到的!!

      [​IMG]

      上面这图,空心三角形就是出场位置的标示,看看那个出场标示在哪边?没错,就是K线的最高点,请想一想这有没有问题?我们定下的出场除了多空翻单外,就是移动出场,既然移动出场要有折返才会出场,那出场点在K线的最高点有可能吗?

      如果使用99%精度的Tick数据,回测如下:

      [​IMG]

      这篇简单的范例不是想指出用很灵敏的移动出场是不可行的,而是说这种的即时策略,在真实运作时会是怎样的状况?至于,造成这个垃圾回测报表的原因,我就不多叙述了。直接告诉你如何呈现实况:使用99%精度的Tick数据。

    • 什么是Tick数据
      Tick数据就是交易所中最详尽的交易数据结构。包括:开盘价、最高价、最低价、最新价、成交量、成交额。如果把交易数据比喻成河流,Tick数据就是这个河流在某个横截面的数据。

      [​IMG]

      如上图所示,国外交易所每个动作都会实时推送到市场上来。而国内交易所,每秒两次进行检查,如果该时间段内有动作,则生成一次快照并且推送出来。相比较而言,数据的推送充其量只能算做 OnTime,而不能叫做OnTick。

    • BotVS的Tick数据
      尽管国内Tick数据并不是真正意义上的 Tick,但是使用这种数据进行回测,至少可以无限接近和还原了现实。每个Tick中显示着当时这个商品在市场中的主要参数,并且在实盘中我们的代码,就是跟着理论每秒 2 次的Tick在进行计算。

      [​IMG]

      不仅如此,在 BotVS 中即使加载的是1小时周期的数据,依然可以调整数据粒度,比如将数据粒度调整为 1 分钟。此时此刻的1小时K线就是用1分钟数据组成的。当然,粒度越小,精度越高。

      [​IMG]

      更为强大的是,如果将数据切换为实盘级Tick,就可以无缝还原真实的实盘环境。即1秒2次Tick交易所的真实数据。

    • 总结
      你不可能拿着玩具枪就上战场,不是吗?在开始实盘之前,我们都会慎之又慎。客观的压力检验,能帮你省下许多真金白银,而这些损失通常都是不必要的。

      那么历史数据的准确性就成了你的交易策略检验结果的关键因素之一,假如你的数据是不准确的,那么在这种数据下的优化和回测必然也是无法在市场中进行的。

      否则在Bar模式下看着很爽的模型,到最后变成一个很爽的陷阱......回测,就是要对自己狠一点......

    • 分享是一种态度,更是一种智慧!
    转载自 BotVS
    作者: Hukybo