统计自然语言处理(宗成庆) http://www.amazon.cn/dp/bkbk830126 对最近几年国际上一些最新的自然语言处理算法模型有介绍,比较完整。很多量化投资的专家都来自这个领域 《统计自然语言处理》全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等,既有对基础知识和理论模型的介绍,也有对相关问题的研究背景、实现方法和技术现状的详细阐述。
目前北大在这方面比较领先,可以看看,不过,这个领域的Bible是《文字挖掘》,以色列人费尔德曼写的,属于数据挖掘的一个子集,里面的模型比较多,可以看看,另外北大的杨建武的PPT可以看一下,有不少想法。目前比较有效的文字挖掘方法是用前溯神经网络,用遗传算法来模拟,别看名字听起来看似复杂,其实很简单,就是编码,随机改变编码,外加阀值函数的设定,挖起来比较精确。在挖掘程序设计上,建议大家找一下哈工大的词根表,他们在计算机识别语意方面做的比较早。研究这些方法的工具包括SAS的文本挖掘,IBM的数据库系统里也有个文字挖掘子集,免费的R软件也有类似功能,不过比较弱,要进行二次开发。另外,相当一部分研究现在开始向WEB SPIDER这类网络溜达软件转移。
孤陋寡闻~ 微博的挖掘结果样例。 另外你说的IBM的指的是是他们原来的,还是收购了的PASW(前SPSS)Modeler? 不管哪个,比R差不少。而且,PASW Modeler对中文的支持是先通过language weaver的CAT之后再进行的,不是纯种中文。
kuhasu大神, 你贴的这个图像是R对词频分析的应用啊,IBM的系统也可以啊。 根据微博页面内人名共同出现的频率作图。 然后将词频高的几个人名划为一个圈。 这还是词频分析啊。词频分析是文字处理软件的基础,就像股票软件能显示价格一样。