历史是否重演?帮你样本外测试,助你打造对冲组合

Discussion in 'Philosophy and Strategy' started by yanxc2, Jan 29, 2014.

  1. 还是写全点,免生误会:

    过度拟合未能在不看代码的情况下被发现它是过度拟合 的直接原因,就是数据不足。尤其是样本外数据不足。
     
  2. 对于金融市场来说,过拟合的主要原因是你的模型没能反映出市场中真实的内在规律。
    这也是算法交易最难的地方。 只靠增加有限的数据,解决不了这个问题。

    当然,如果你的模型已经能工作,额外的数据到是有些好处。
    可是怎么让人相信你的数据的质量呢?
     
  3. 明白人呀 :)
     
  4. 数据足不足,得相对于模型的复杂度而言。

    有点绕,其实你的意思应该就是:要检验黑盒模型是否过拟,得靠样本外数据。

    只是你提供的“样本外”数据也是通过一个模型产生的,这个模型对于别人来说也是黑盒模型,那么:
    1. 这个用来产生“样本外”数据的黑盒模型该如何检验?
    2. 过拟检验的结果肯定也会有假阳假阴,那这种“过拟检验”本身又该如何检验?


    另:刚好ZenFish和novaavon在隔壁也有谈及过拟问题,转如下:

     

  5. 对过度拟合的测试,往前增加几年的数据,会面临着严重的商品特性改变的问题,当然也要看你的持仓周期和进场频率
     
  6. 此言极是,发现规律并利用规律是王道,但所谓的规律,并不是用数学式子乱碰,碰到一个算一个么?就像前几天世界杯成绩预测,当“咖啡豆产国连胜”都能成为规律的时候,这就离本真的规律越来越远了。模型是自己写的,其适用性和容差范围自己都应该很清楚才对,否则“碰”到了规律,也会绕开。另外,行情特性评价体系也该建立,不是说前几年曲线不好,这样的模型就一定不行,也要看商品特性变化了多少,曲线重要,但不是唯一。亏钱未必是因为模型筛选的信号不准,而是行情本身的问题。历经几次特性改变的历史行情,非要找出通用性强的规律,就算找到,这种模型未来的可用性又有多少?
     
  7. 挪到这里来说吧,毕竟和那边帖子讨论的内容有点远.


    减少或限制参数数量,这和增加数据是一回事啊。
    过拟合和参数数量之间关系没有那么大,更多是参数优化本身思路的问题。
    我个人觉得只要用什么遗传算法、粒子群算法之类来做优化,就算只用到1、2个参数,结果还会是一样的
     

  8. Pseudo-Mathematics and Financial Charlatanism: The Effects of Backtest Overfitting on Out-of-Sample Performance

    http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2308659

    欢迎进行深入讨论

    BTW, 从你的id看,我觉的我好像在Linkedin上加过你呀? :D
     
  9. 过拟合与候选系统的数量有关。一个模型通过参数变化对应一批候选系统,参数数量多,候选系统也多。

    只用1、2个参数的话,似乎也没必要折腾遗传、粒子群,直接穷举就算了:)
     
  10. 确实 2-3个我都穷举的, 最大也就12小时。
    但是4个以上靠穷举会哭了。。。 这时候靠遗传算法。

    普遍来说只要不是太复杂的系统2-3个参数足矣。
     
  11. 是吗,我要看一下。


    关于限制参数数量的做法,我的意思是限制了也未必能避免过拟合,不限制也不等于就判了死刑。
    有不少工作的很好的策略,参数是不止个位数的 ;)
    策略的开发流程很关键 ......
     
  12. 什么是样本外数据?比如:我有100万行数据,50万行用于训练,50万行用于测试,那么后50万行称为样本外数据?还是说对训练用数据每列求最大值和最小值,如果测试数据中出现小于最小值大于最大值的,称为样本外数据?
     
  13. 同意,在保证性能的情况下,参数越少越好 :D
     
  14. 关键点就在这里。

    我的“样本外数据”,并非通过黑盒模型产生。而是真实市场本身产生的:p
     
  15. 前者的解释可以算样本外数据。