推荐一本书

xingkong123 · Feb 19, 2010

统计自然语言处理（宗成庆）
http://www.amazon.cn/dp/bkbk830126
对最近几年国际上一些最新的自然语言处理算法模型有介绍，比较完整。很多量化投资的专家都来自这个领域

《统计自然语言处理》全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展，内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等，既有对基础知识和理论模型的介绍，也有对相关问题的研究背景、实现方法和技术现状的详细阐述。

clmtw · Feb 19, 2010

谢谢推荐，我去订了一本。

eyahoo · Feb 19, 2010

谢谢推荐。

netf · Feb 21, 2010

谢谢推荐

gzpony · Feb 21, 2010

谢谢，mark之

HYBLlzx · Mar 31, 2010

xingkong123 said: ↑

统计自然语言处理（宗成庆）
http://www.amazon.cn/dp/bkbk830126
对最近几年国际上一些最新的自然语言处理算法模型有介绍，比较完整。很多量化投资的专家都来自这个领域

《统计自然语言处理》全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展，内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等，既有对基础知识和理论模型的介绍，也有对相关问题的研究背景、实现方法和技术现状的详细阐述。
Click to expand...

谢谢你的推荐

Kreangast · Apr 1, 2010

我想也推荐魏强斌的《外汇短线交易的24堂精品课:面向高级交易者》及〈外汇交易进阶〉

Atom · Apr 6, 2010

谢谢推荐，有空就看

quant_edge · May 17, 2010

统计自然语言处理（宗成庆）买了，谢谢推荐！
英文统计自然语言处理方面的书也不少，不多看中文可能快一点，看了中文的再看英文的

liubin730020 · Mar 18, 2011

目前北大在这方面比较领先，可以看看，不过，这个领域的Bible是《文字挖掘》，以色列人费尔德曼写的，属于数据挖掘的一个子集，里面的模型比较多，可以看看，另外北大的杨建武的PPT可以看一下，有不少想法。目前比较有效的文字挖掘方法是用前溯神经网络，用遗传算法来模拟，别看名字听起来看似复杂，其实很简单，就是编码，随机改变编码，外加阀值函数的设定，挖起来比较精确。在挖掘程序设计上，建议大家找一下哈工大的词根表，他们在计算机识别语意方面做的比较早。研究这些方法的工具包括SAS的文本挖掘，IBM的数据库系统里也有个文字挖掘子集，免费的R软件也有类似功能，不过比较弱，要进行二次开发。另外，相当一部分研究现在开始向WEB SPIDER这类网络溜达软件转移。

kuhasu · Mar 18, 2011

liubin730020 said: ↑

目前北大在这方面比较领先，可以看看，不过，这个领域的Bible是《文字挖掘》，以色列人费尔德曼写的，属于数据挖掘的一个子集，里面的模型比较多，可以看看，另外北大的杨建武的PPT可以看一下，有不少想法。目前比较有效的文字挖掘方法是用前溯神经网络，用遗传算法来模拟，别看名字听起来看似复杂，其实很简单，就是编码，随机改变编码，外加阀值函数的设定，挖起来比较精确。在挖掘程序设计上，建议大家找一下哈工大的词根表，他们在计算机识别语意方面做的比较早。研究这些方法的工具包括SAS的文本挖掘，IBM的数据库系统里也有个文字挖掘子集，免费的R软件也有类似功能，不过比较弱，要进行二次开发。另外，相当一部分研究现在开始向WEB SPIDER这类网络溜达软件转移。
Click to expand...

北大这方面比较弱。目前中文的分词除了google，微软研究院，中科院，剩下的就是其他的机构研究。R并不弱，IBM的比较弱。目前有效的自然语言处理方法是基于隐马和最大熵隐马的，而不是神经网络和遗传算法。

liubin730020 · Mar 18, 2011

kuhasu said: ↑

北大这方面比较弱。目前中文的分词除了google，微软研究院，中科院，剩下的就是其他的机构研究。R并不弱，IBM的比较弱。目前有效的自然语言处理方法是基于隐马和最大熵隐马的，而不是神经网络和遗传算法。
Click to expand...

R只能统计词频还不弱？IBM的比R好多了，

kuhasu · Mar 18, 2011

liubin730020 said: ↑

R只能统计词频还不弱？IBM的比R好多了，
Click to expand...

孤陋寡闻~

微博的挖掘结果样例。

另外你说的IBM的指的是是他们原来的，还是收购了的PASW（前SPSS）Modeler？
不管哪个，比R差不少。而且，PASW Modeler对中文的支持是先通过language weaver的CAT之后再进行的，不是纯种中文。

riverhylt · Nov 27, 2011

kuhasu said: ↑

北大这方面比较弱。目前中文的分词除了google，微软研究院，中科院，剩下的就是其他的机构研究。R并不弱，IBM的比较弱。目前有效的自然语言处理方法是基于隐马和最大熵隐马的，而不是神经网络和遗传算法。
Click to expand...

kuhasu真是太厉害了，啥都精通啊。

kuhasu · Nov 28, 2011

riverhylt said: ↑

kuhasu真是太厉害了，啥都精通啊。
Click to expand...

你也很厉害啊~一句话就能指出对于svm不适用问题，改变核函数也作用不会很大。一般人没这个水平的。

zhangyili · Nov 30, 2011

厉害.data mining 都能搞出这些内容.

konit · Mar 21, 2012

哈工大是不是搞語音識別比較有名？

kuhasu · Mar 21, 2012

konit said: ↑

哈工大是不是搞語音識別比較有名？
Click to expand...

挺厉害的～

Toby · Mar 22, 2012

konit said: ↑

哈工大是不是搞語音識別比較有名？
Click to expand...

在人工智能方面国内有些名气。

15年前听过哈工大王开铸教授关于语音识别的讲座，给我们不懂的人扫扫盲

liubin730020 · May 19, 2012

kuhasu大神，你贴的这个图像是R对词频分析的应用啊，IBM的系统也可以啊。
根据微博页面内人名共同出现的频率作图。然后将词频高的几个人名划为一个圈。
这还是词频分析啊。词频分析是文字处理软件的基础，就像股票软件能显示价格一样。