历史是否重演？帮你样本外测试，助你打造对冲组合

yanxc2 · Jul 21, 2014

novaavon said: ↑

过拟合的直接原因当然不是数据不足，这个我还是清楚的
Click to expand...

还是写全点，免生误会：

过度拟合未能在不看代码的情况下被发现它是过度拟合的直接原因，就是数据不足。尤其是样本外数据不足。

ZenFish · Jul 24, 2014

yanxc2 said: ↑

过度拟合未能在不看代码的情况下被发现它是过度拟合的直接原因，就是数据不足。尤其是样本外数据不足。
Click to expand...

对于金融市场来说，过拟合的主要原因是你的模型没能反映出市场中真实的内在规律。
这也是算法交易最难的地方。只靠增加有限的数据，解决不了这个问题。

当然，如果你的模型已经能工作，额外的数据到是有些好处。
可是怎么让人相信你的数据的质量呢？

novaavon · Jul 24, 2014

ZenFish said: ↑

对于金融市场来说，过拟合的主要原因是你的模型没能反映出市场中真实的内在规律。
这也是算法交易最难的地方。只靠增加有限的数据，解决不了这个问题。
Click to expand...

明白人呀

Wenyan · Jul 26, 2014

yanxc2 said: ↑

没错。我的意思就是过度拟合的直接原因就是数据不足。只是用词省略了一下。

如果你的模拟能够拟合海量的数据（比如IF模型能拟合40年），本身就超越了所谓过度拟合，已经是普适的了。
Click to expand...

数据足不足，得相对于模型的复杂度而言。

yanxc2 said: ↑

novaavon said: ↑

过拟合的直接原因当然不是数据不足，这个我还是清楚的
Click to expand...

还是写全点，免生误会：

过度拟合未能在不看代码的情况下被发现它是过度拟合的直接原因，就是数据不足。尤其是样本外数据不足。
Click to expand...

有点绕，其实你的意思应该就是：要检验黑盒模型是否过拟，得靠样本外数据。

只是你提供的“样本外”数据也是通过一个模型产生的，这个模型对于别人来说也是黑盒模型，那么：
1. 这个用来产生“样本外”数据的黑盒模型该如何检验？
2. 过拟检验的结果肯定也会有假阳假阴，那这种“过拟检验”本身又该如何检验？

另：刚好ZenFish和novaavon在隔壁也有谈及过拟问题，转如下：

novaavon said: ↑

ZenFish said: ↑

flashpoint said: ↑

如果你的单一策略参数在三个以内，经过变态的压力测试，然后再考虑是否值得坚持。

如果没有达到以上标准，改行吧....否则只是浪费时间
Click to expand...

好几个人提到要有参数数量限制，好像Ernie Chan就是其中之一。

这个观点是错的。
Click to expand...

老弟, 这个观点不是错，而是不准确:

对参数多的策略进行回测所得到结果更有可能是由于过拟合造成的，因此减少参数数量可以在一定程度上抑制过拟合。

当然, 在参数数目实在没法再减少的情况下，只要多做几年的回测也能减小发生过拟合的可能性。

因此，对参数数量没有绝对的限制，但少点儿还是好。
Click to expand...

佳世乱人 · Jul 26, 2014

Wenyan said: ↑

数据足不足，得相对于模型的复杂度而言。

有点绕，其实你的意思应该就是：要检验黑盒模型是否过拟，得靠样本外数据。

只是你提供的“样本外”数据也是通过一个模型产生的，这个模型对于别人来说也是黑盒模型，那么：
1. 这个用来产生“样本外”数据的黑盒模型该如何检验？
2. 过拟检验的结果肯定也会有假阳假阴，那这种“过拟检验”本身又该如何检验？

另：刚好ZenFish和novaavon在隔壁也有谈及过拟问题，转如下：
Click to expand...

对过度拟合的测试，往前增加几年的数据，会面临着严重的商品特性改变的问题，当然也要看你的持仓周期和进场频率

佳世乱人 · Jul 26, 2014

ZenFish said: ↑

对于金融市场来说，过拟合的主要原因是你的模型没能反映出市场中真实的内在规律。
这也是算法交易最难的地方。只靠增加有限的数据，解决不了这个问题。

当然，如果你的模型已经能工作，额外的数据到是有些好处。
可是怎么让人相信你的数据的质量呢？
Click to expand...

此言极是，发现规律并利用规律是王道，但所谓的规律，并不是用数学式子乱碰，碰到一个算一个么？就像前几天世界杯成绩预测，当“咖啡豆产国连胜”都能成为规律的时候，这就离本真的规律越来越远了。模型是自己写的，其适用性和容差范围自己都应该很清楚才对，否则“碰”到了规律，也会绕开。另外，行情特性评价体系也该建立，不是说前几年曲线不好，这样的模型就一定不行，也要看商品特性变化了多少，曲线重要，但不是唯一。亏钱未必是因为模型筛选的信号不准，而是行情本身的问题。历经几次特性改变的历史行情，非要找出通用性强的规律，就算找到，这种模型未来的可用性又有多少？

ZenFish · Jul 27, 2014

novaavon said: ↑

老弟, 这个观点不是错，而是不准确:

对参数多的策略进行回测所得到结果更有可能是由于过拟合造成的，因此减少参数数量可以在一定程度上抑制过拟合。

当然, 在参数数目实在没法再减少的情况下，只要多做几年的回测也能减小发生过拟合的可能性。

因此，对参数数量没有绝对的限制，但少点儿还是好。
Click to expand...

挪到这里来说吧，毕竟和那边帖子讨论的内容有点远.

减少或限制参数数量，这和增加数据是一回事啊。
过拟合和参数数量之间关系没有那么大，更多是参数优化本身思路的问题。
我个人觉得只要用什么遗传算法、粒子群算法之类来做优化，就算只用到1、2个参数，结果还会是一样的

novaavon · Jul 27, 2014

ZenFish said: ↑

挪到这里来说吧，毕竟和那边帖子讨论的内容有点远.

减少或限制参数数量，这和增加数据是一回事啊。
过拟合和参数数量之间关系没有那么大，更多是参数优化本身思路的问题。
我个人觉得只要用什么遗传算法、粒子群算法之类来做优化，就算只用到1、2个参数，结果还会是一样的
Click to expand...

Pseudo-Mathematics and Financial Charlatanism: The Effects of Backtest Overfitting on Out-of-Sample Performance

http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2308659

欢迎进行深入讨论

BTW, 从你的id看，我觉的我好像在Linkedin上加过你呀?

Wenyan · Jul 27, 2014

ZenFish said: ↑

挪到这里来说吧，毕竟和那边帖子讨论的内容有点远.

减少或限制参数数量，这和增加数据是一回事啊。
过拟合和参数数量之间关系没有那么大，更多是参数优化本身思路的问题。
我个人觉得只要用什么遗传算法、粒子群算法之类来做优化，就算只用到1、2个参数，结果还会是一样的
Click to expand...

过拟合与候选系统的数量有关。一个模型通过参数变化对应一批候选系统，参数数量多，候选系统也多。

只用1、2个参数的话，似乎也没必要折腾遗传、粒子群，直接穷举就算了

吃饱睡 · Jul 28, 2014

Wenyan said: ↑

过拟合与候选系统的数量有关。一个模型通过参数变化对应一批候选系统，参数数量多，候选系统也多。

只用1、2个参数的话，似乎也没必要折腾遗传、粒子群，直接穷举就算了
Click to expand...

确实 2-3个我都穷举的，最大也就12小时。
但是4个以上靠穷举会哭了。。。这时候靠遗传算法。

普遍来说只要不是太复杂的系统2-3个参数足矣。

ZenFish · Aug 3, 2014

novaavon said: ↑

BTW, 从你的id看，我觉的我好像在Linkedin上加过你呀?
Click to expand...

是吗，我要看一下。

关于限制参数数量的做法，我的意思是限制了也未必能避免过拟合，不限制也不等于就判了死刑。
有不少工作的很好的策略，参数是不止个位数的
策略的开发流程很关键 ......

toneyson · Aug 3, 2014

什么是样本外数据？比如:我有100万行数据，50万行用于训练，50万行用于测试，那么后50万行称为样本外数据？还是说对训练用数据每列求最大值和最小值，如果测试数据中出现小于最小值大于最大值的，称为样本外数据？

novaavon · Aug 3, 2014

ZenFish said: ↑

是吗，我要看一下。

关于限制参数数量的做法，我的意思是限制了也未必能避免过拟合，不限制也不等于就判了死刑。
有不少工作的很好的策略，参数是不止个位数的
策略的开发流程很关键 ......
Click to expand...

同意，在保证性能的情况下，参数越少越好

yanxc2 · Aug 5, 2014

Wenyan said: ↑

数据足不足，得相对于模型的复杂度而言。

有点绕，其实你的意思应该就是：要检验黑盒模型是否过拟，得靠样本外数据。

只是你提供的“样本外”数据也是通过一个模型产生的，这个模型对于别人来说也是黑盒模型，那么：
1. 这个用来产生“样本外”数据的黑盒模型该如何检验？
2. 过拟检验的结果肯定也会有假阳假阴，那这种“过拟检验”本身又该如何检验？

另：刚好ZenFish和novaavon在隔壁也有谈及过拟问题，转如下：
Click to expand...

关键点就在这里。

我的“样本外数据”，并非通过黑盒模型产生。而是真实市场本身产生的

yanxc2 · Aug 5, 2014

toneyson said: ↑

什么是样本外数据？比如:我有100万行数据，50万行用于训练，50万行用于测试，那么后50万行称为样本外数据？还是说对训练用数据每列求最大值和最小值，如果测试数据中出现小于最小值大于最大值的，称为样本外数据？
Click to expand...

前者的解释可以算样本外数据。