对于金融市场来说,过拟合的主要原因是你的模型没能反映出市场中真实的内在规律。 这也是算法交易最难的地方。 只靠增加有限的数据,解决不了这个问题。 当然,如果你的模型已经能工作,额外的数据到是有些好处。 可是怎么让人相信你的数据的质量呢?
数据足不足,得相对于模型的复杂度而言。 有点绕,其实你的意思应该就是:要检验黑盒模型是否过拟,得靠样本外数据。 只是你提供的“样本外”数据也是通过一个模型产生的,这个模型对于别人来说也是黑盒模型,那么: 1. 这个用来产生“样本外”数据的黑盒模型该如何检验? 2. 过拟检验的结果肯定也会有假阳假阴,那这种“过拟检验”本身又该如何检验? 另:刚好ZenFish和novaavon在隔壁也有谈及过拟问题,转如下:
此言极是,发现规律并利用规律是王道,但所谓的规律,并不是用数学式子乱碰,碰到一个算一个么?就像前几天世界杯成绩预测,当“咖啡豆产国连胜”都能成为规律的时候,这就离本真的规律越来越远了。模型是自己写的,其适用性和容差范围自己都应该很清楚才对,否则“碰”到了规律,也会绕开。另外,行情特性评价体系也该建立,不是说前几年曲线不好,这样的模型就一定不行,也要看商品特性变化了多少,曲线重要,但不是唯一。亏钱未必是因为模型筛选的信号不准,而是行情本身的问题。历经几次特性改变的历史行情,非要找出通用性强的规律,就算找到,这种模型未来的可用性又有多少?
挪到这里来说吧,毕竟和那边帖子讨论的内容有点远. 减少或限制参数数量,这和增加数据是一回事啊。 过拟合和参数数量之间关系没有那么大,更多是参数优化本身思路的问题。 我个人觉得只要用什么遗传算法、粒子群算法之类来做优化,就算只用到1、2个参数,结果还会是一样的
Pseudo-Mathematics and Financial Charlatanism: The Effects of Backtest Overfitting on Out-of-Sample Performance http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2308659 欢迎进行深入讨论 BTW, 从你的id看,我觉的我好像在Linkedin上加过你呀?
什么是样本外数据?比如:我有100万行数据,50万行用于训练,50万行用于测试,那么后50万行称为样本外数据?还是说对训练用数据每列求最大值和最小值,如果测试数据中出现小于最小值大于最大值的,称为样本外数据?