1.基础概念

自然语言处理(Nature Language Processing,NLP)是一门融合了计算机科学,人工智能以及语言学的交叉学科。

2.研究目标

通过机器学习等技术,让计算机学会处理人类语言,乃至实现终极目标——理解人类语言或人工智能。



3.自然语言的处理层次
  • 语音、图像和文本
    自然语言处理系统的输入源一共有3个,语音,图像和文本,但前两者存储的信息总量没有文本多,所以需要先转换为文本再处理,转换分别称为语音识别(Speech Recognition)和光学字符识别(OCR)。
  • 词法分析
    主要任务是将文本分隔为有意义的词语 (中文分词),消除每个词语的歧义(词性标注),再识别出一些特殊的专有名词(命名体识别)。
  • 信息抽取
    词法分析之后,文本已经呈现结构化趋势。显示为有意义的单词列表。根据单词与标签,我们可以抽取出一部分有用的信息,从简单的高频词到高级算法提取关键词
  • 句法分析
    词法分析只能得到零散的词汇信息,计算机不知道词语之间的关系。句法分析的目标就是,得到句子中词语之间的关系
  • 语义分析与篇章分析
    相对于句法分析来看,语义分析侧重于语义而非语法,它包括词义消歧(确定一个词在语境中的含义)、语义角色标注(标注句子中谓语与其他成分的关系),语义依存分析(分析句子中词语之间的关系)


4.自然语言处理的流派
  • 基于规则的专家系统
    设计专家针对需求而设计许多规则组成的系统,比较死板僵硬与不稳定。
  • 基于统计学的方法
    收集制作语料库,让机器根据语料库自动学习这些规则(与机器学习相结合)


5.总结

机器学习是人工智能的子集,而NLP则是人工智能与语言学,计算机科学的交集。这个交集虽然小,它的难度却很大。为了实现理解自然语言这个宏伟目标,人们尝试了规则系统,并最终发展到基于大规模语料库的统计学习系统