推荐一本书

Discussion in 'Model and Algorithm' started by xingkong123, Feb 19, 2010.

  1. 统计自然语言处理(宗成庆)
    http://www.amazon.cn/dp/bkbk830126
    对最近几年国际上一些最新的自然语言处理算法模型有介绍,比较完整。很多量化投资的专家都来自这个领域

    《统计自然语言处理》全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等,既有对基础知识和理论模型的介绍,也有对相关问题的研究背景、实现方法和技术现状的详细阐述。
     
  2. 谢谢推荐,我去订了一本。
     
  3. 谢谢推荐。
     
  4. 谢谢推荐
     
  5. 谢谢,mark之
     
  6. 谢谢你的推荐
     
  7. 我想也推荐魏强斌的《外汇短线交易的24堂精品课:面向高级交易者》及〈外汇交易进阶〉
     
  8. 谢谢推荐,有空就看
     
  9. 统计自然语言处理(宗成庆) 买了,谢谢推荐!
    英文统计自然语言处理方面的书也不少,不多看中文可能快一点,看了中文的再看英文的
     
  10. 目前北大在这方面比较领先,可以看看,不过,这个领域的Bible是《文字挖掘》,以色列人费尔德曼写的,属于数据挖掘的一个子集,里面的模型比较多,可以看看,另外北大的杨建武的PPT可以看一下,有不少想法。目前比较有效的文字挖掘方法是用前溯神经网络,用遗传算法来模拟,别看名字听起来看似复杂,其实很简单,就是编码,随机改变编码,外加阀值函数的设定,挖起来比较精确。在挖掘程序设计上,建议大家找一下哈工大的词根表,他们在计算机识别语意方面做的比较早。研究这些方法的工具包括SAS的文本挖掘,IBM的数据库系统里也有个文字挖掘子集,免费的R软件也有类似功能,不过比较弱,要进行二次开发。另外,相当一部分研究现在开始向WEB SPIDER这类网络溜达软件转移。
     
  11. 北大这方面比较弱。目前中文的分词除了google,微软研究院,中科院,剩下的就是其他的机构研究。R并不弱,IBM的比较弱。目前有效的自然语言处理方法是基于隐马和最大熵隐马的,而不是神经网络和遗传算法。
     
  12. R只能统计词频 还不弱?IBM的比R好多了,
     
  13. 孤陋寡闻~

    [​IMG]


    [​IMG]


    [​IMG]

    微博的挖掘结果样例。

    另外你说的IBM的指的是是他们原来的,还是收购了的PASW(前SPSS)Modeler?
    不管哪个,比R差不少。而且,PASW Modeler对中文的支持是先通过language weaver的CAT之后再进行的,不是纯种中文。
     
  14. kuhasu真是太厉害了,啥都精通啊。
     
  15. 你也很厉害啊~一句话就能指出对于svm不适用问题,改变核函数也作用不会很大。一般人没这个水平的。:)
     
  16. 厉害.data mining 都能搞出这些内容.
     
  17. 哈工大是不是搞語音識別比較有名?
     
  18. 挺厉害的~
     
  19. 在人工智能方面国内有些名气。

    15年前听过哈工大王开铸教授关于语音识别的讲座,给我们不懂的人扫扫盲:p
     
  20. kuhasu大神, 你贴的这个图像是R对词频分析的应用啊,IBM的系统也可以啊。
    根据微博页面内人名共同出现的频率作图。 然后将词频高的几个人名划为一个圈。
    这还是词频分析啊。词频分析是文字处理软件的基础,就像股票软件能显示价格一样。