哪位能推荐几个模式识别的论坛?我想征友!!

Discussion in 'Model and Algorithm' started by ch3coohqb, Jun 15, 2011.

  1. 周末有点时间,多敲几个字,呵呵。

    人工智能里面,最吸引人的似乎就是“模式识别”了,很多人把重点放在这个上面,以为机器能识别出某个东西就有“智能”了,其实这只是人工智能的第一步,后面还有两个环节:

    observation/perception ---> decision ---> action

    模式识别也只是“观察和认知”这个步骤里面的一个实现方法而已。

    对应于有“智能”的交易系统,这三步可以对应为:
    pattern/setup ---> trading decision ---> order management

    “决策”比“观察/认知”,“行动”复杂得多。决策其实也是人工智能里面很难取得突破的一个领域,或者说是人工智能发展的一个瓶颈。IBM的深蓝制胜的关键就在于决策,它的观察和执行这两步都很简单。当然了,它的决策也许是brutal force加了一些捷径和很多的规则,但关键还是在于决策。

    决策这个研究方向上的东西很多,知识库(也包括自我学习),推理,等等.....和交易联系起来的话,就是需要一个策略来根据观察到的东西做出买/卖的决定。

    说了这么多,归结到楼主的问题就是,你有一个盈利的策略吗?如果有的话,那么使用模式识别也许可以提高胜率,也许可以提前一点生成信号,但也可能因为灵敏度很高(就像上面K兄的那个机器人一样,哈哈)而造成太多无效信号。

    所以我说,模式识别就像一个很复杂的指标,可好可坏,可迟钝可敏感,但这个不是最关键的。

    “智能”的关键是决策,交易的关键是“策略”。
     
  2. 这种思路估计不少人想过,不过有能力实现的人也不会很多。
    我也做过类似的,不过后来意识的这个“模式匹配”其实有一个很大的假设就是,走势有很大的概率会在出现之前的部分模式之后,发展出和历史相似的模式。但实际情况是,走势几乎有无数种变化,你根据某种统计规律来主观地认为走势有 xx% 的概率会这样....结果呢,呵呵,你自己的回测会告诉你。

    企图通过有限的模式去预测近乎无限的变化,我觉得其结果是不可知的。

    市场有很大的肥尾,其所谓的“模式”出现的概率分布不是静态的,一系列“模式”呈现的序列出现的概率分布也不是静态的...

    唉,不说了,这牵扯到基于概率的推理去了,但问题就是概率的分布其实是变化的,自我学习也许可以,但是遇到市场形态突变的时候,你的机器学得那一堆东西立马过时..呵呵,这是个难题啊
     
  3. 完全同意espresso的看法,
    看了不少资料,学术方面的资料确实很喜欢用以概率为基础的模型,虽然看看很漂亮,
    但是稍微研究一下,几乎没有可能用于实战。
     
  4. espresso說得挺好~~
     
  5. 谢谢espresso的回复,我是个新手,对算法比较了解,系统开发也是基于matlab,基本能实现所知道的大部分算法,但是对系统交易知道很少,有以下一些思考:

    1.技术分析的认为历史会重现,诸如价格形态分析(头肩顶、上升三角形等)或者蜡烛图形态分析,认为价格形态会重现,出现某种价格形态后,随后走势出现某一趋势的概率会很高;
    2.即使机械交易系统,也是基于对历史数据的测试开发的,默认历史数据测试的系统也能在未来盈利,是不是也算一种历史重现?如果不是那机械交易系统怎么能保证盈利啊。机械交易系统盈利的基础是什么?
     
  6. 模式识别有点像刻舟求剑,刻舟后面的变化是千变万化,不清楚lz是否考虑过这个问题?
     

  7. 哈哈,你这些问题太深刻了,很多地方都有类似的讨论,但似乎最后也不会有什么黑白分明的结论。

    本来写了一些,觉得太啰嗦,删了。简单点说吧,很多人(包括我自己以前)都追求以 p% 概率进场获利,但是市场经常给大家最不喜欢的 1-p% 的那些东西,这时很多人就傻掉了。如果你把那 1-p% 的问题解决,某种形态的概率是多少对你就没有太大影响了。

    忘记是不是通向金融自由王国那本书,里面提到tom basso 对于回测的看法:你对市场越了解,就越不需要回测。这可能对你有点启发。

    至于机械交易系统盈利的基础?呵呵,我也不知道。

    ....
    ....
    ....

    嘿嘿,说得有点歪楼了。
    我最初回复这个帖子的意思很简单:模式识别不太可能帮LZ发现获利的策略,有时候简单一点更好。

    当然了,海洋是藏龙卧虎的地方,也欢迎大虾们冒泡发表见解。 :)
     
  8. 其实可以用,看怎么用,区别很大。其实就连基本的技术指标用好了,都可以实现赢利的目的,尽管严谨性和长期有效性需要验证和监控。
     
  9. 有限模式逼近无限变化,对数据切啊切啊,唉,都焦了,还是切了吧
     
  10. 用在哪个环节? 这种问答不算泄密吧:)

    另外,你觉得模式识别可以用于决策吗?
     
  11. :D
     
  12. 定义环节?

    模式识别可以用于决策。
     
  13. 环节,大概就是哪个阶段用到。比如,对数据分类? 从数据中抽取状态? 或者数据经处理分类后再用模式识别生成某些中间结果? 甚至是交易指令?? 或者其他…?

    用于决策,那么输出的是什么? 可以连续决策吗? 还是给出一组方案,由人工或其他方法再优选? 也就是辅助决策?

    哈哈,问了K兄一堆问题 :D 多谢回答!
     
  14. 同一种模式出现的各种可能性有很多,但毕竟图表是二维的,如果有一定的算法和统计学原理,能够避免走错路。比如说:Baum–Welch algorithm。西蒙斯可能就是利用的这种算法保持长胜。但我始终认为,以个人之力,再买好的设备和投入精力,相对实用雄厚的自营交易公司,仍然处于劣势。甚至你的交易方法可能短时间有用,一旦你的资金达到对市场某些时段有影响,你的这些影响就会被交易公司的算法识别,因为市场本身是零和游戏,所以,你又将被打败。
     
  15. 兄台所说各阶段其实都有使用。还包括风控、仓位控制(投资组合方向)、以及订单技巧等。

    可以单独用于决策,也可以辅助进行决策,输出的就是决策以及决策权重/某种规则判定,可以连续决策,给出方案/人工/其他再优选是应用的问题,单独可以作为决策主要依据或者唯一依据,也可以作为决策辅助。
    毕竟工具而已,看怎么用,菜刀可以切萝卜切西红柿切西瓜,也可以在菜刀帮的图腾上。
     
  16. 模式可以是多维的,从某个维度看是二维的。
    这就好像有些人从某个角度看市场就是随机的,看不出什么别的来,连趋势也是随机,而不看看背后的支持情况,与角度有关。

    西蒙老头儿用的不是一种算法,虽然最初试了几种。但是还没有超出人类范畴。

    其实个人之于机构,在算法交易时代,是没有劣势的。传统上机构有人才、资金、设备、关系、社会影响力、隐含信息渠道(比如可以看到客户订单情况)等优势,但是在算法交易采取之后,
    人才优势丧失,你无法保证你的人才一定会战胜某些市场中的人才,而且这个事情不是人多,教育程度就可以决定的,很多核心实际都是一两人制造,即便现在大机构也是一样,所以大机构不见得会占便宜;
    资金优势丧失,以前靠大资金可以运作,然后对个人和规模小机构进行挤压,但是市场有资金容量问题,大资金会在流动性上丧失优势,加上反策略策略,探试类策略的进入,游击队和特种部队反而占尽优势,同时在资金量方面可控的幅度要大得多,很多特种部队可以在1百万美元和100亿美元之间游刃有余,而且实际上大资金的策略受限,更容易被蚕食和遭遇黑天鹅;
    设备本来是机构占便宜的事情,但是各机构现在提供专门通道给普通投资者,DMA,STP,ECN等等,策略建立设备现在实际计算机已经效能很高,况且有很多情况大型机和超级计算机并不能有什么优势,因为人们只强调了硬件因素,而没考虑软环境,包括多线程是否支持,效率提高性能比,设备应用效率,比如天河,设备在那里,那么多院校、科研机构、渣打科营,目前为止,没一个真正能在金融发挥那个设备优势的人。而执行上,硬件设备实际成本很低,因为考量的是低延时,并不是多集群;而且从市场规则看,延时降到一定程度,就已经缺乏实际意义了,只是噱头;
    关系本来是投行、公募得制胜法宝,即便各国监管机构在这方面对外宣称打击,但没有一国政府监管机构确实真正打击了,具体的原因不说,可是算法交易有一大类是专门针对这种内幕消息和相关的策略,这么一来关系反而被人利用,而且就算法交易来看,还不用承担法律合规风险,因为它是基于分析得出的,而不是基于关系;
    社会影响力方面,这里面就是各个投行的报告和公开表态、以及各个券商、机构的分析师,伪经济学家,在媒体影响力和舆论主导操作,而算法交易不单会对影响力信息进行搜集,而且还会对其效果以及对市场影响进行评估,并估计其下面的真正行动和真实披露目的,所有的这些,一个人就够了,而且还没有媒体成本;
    剩下隐含信息渠道方面,首先这是不合规的,也是我一直主张不在非独立第三方券商平台进行交易的主要原因,这里面你虽然得不到相关信息(其他投资者的),但是你却有一大堆方法反交易信息泄露,并且,主动性策略有相当一部分可以得到其他投资者信息,还是也不涉及合规问题。
    这就是为什么机构对个人已经不存在过多优势的原因,现在只有一个优势是还没有改变的,那就是游戏规则制定权利,不管只要是游戏规则,总能找到方法进行应对。:)
     
    Darren, eastnan and tree like this.
  17. 我有一个亲戚是气象部分工作,我有一些了解。当很多个人以为只要测出气压,温差等等可能以为十几到几十个参数就能预测气象时。殊不知,现在的天气预报除了运用气象卫星等高科技手段,计算的参数可能瞬间达到上万个,而只要一个参数出错,可能结果就会完全不同,这就是所谓的蝴蝶效应。除了大型计算机和庞大的人力后盾,其它方式根本无法准确预测。当然,我们可以想象我们可以预测,我们有优势。
     
  18. 根本不是想象。而且不是想象有优势,优势就在那里摆着。
    不要忘了,只要是人类,其活动范畴不出极个别以外,都是基于人类认识和人类范围之内。

    另外,谁说很多人以为只要测出气压,温差等参数就怎么样?缺乏统计意义。不一定参数少就无效、也不一定参数多就有效,这个是常识。
    气象局我也合作过,那又怎么样?
    另外上万个参数,一个出错,结果完全不同,一这不是蝴蝶效应,二如果是真的这样,那么是建模人员本身素质差的表现,数据误差、以及原始数据错误对模型结果的影响,在一开始数据清理工作就应该考量。另外还有,大部分模型是不具有自行扩展变量能力的,参数加大,是类似于神经网络等中间层等的方法。所以如果没有做过,不要想象是怎么回事儿~:p

    另外一般参数的话,基本是数字格式,即默认8字节每个参数,一万参数也不过8万字节,约80k而已,就算是以秒存储的变量,一天86400秒,即6.5G(实际上气象监测数据密度每这么大,具体计算也不是这么算,打比方),通常一般台式机内存都可以达到8G,用于计算的普通台式机24G=4GddrIII*3通道*主次2,更不用提工作站。就是说即便这么大的数据,都是可以完全在内存中的,而且实际上,大部分处理还是以数据存储于阵列磁盘为基础的。所以,也不要想象自己没优势。:D
     
    Last edited by a moderator: Jun 28, 2011
  19. 呵呵,多谢!看来你们那里的先进工具是比较多啊 :p
    这么多地方都用,想必维护那些数据样本,更新概率分布的工作量都挺大的了,是否遇到计算量过大这样的瓶颈?