1. 语言

语言(language),即自然语言是指汉语、英语、法语等人们日常使用的语言,是自然而然的随着人类社会发展演变而来的语言,区别于如程序设计的语言的人工语言。

自然语言是人类特有的用来表达情感、交流思想的工具,本质是一种信息编码。语音和文字是构成语言的两个基本属性,语音是语言的物质外壳,文字则是记录语言的书写符号系统。

2. 自然语言处理

自然语言处理(NLP,Natural Language Processing) 又称自然语言理解(NLU,Natural language Understanding),即使计算机理解自然语言。

美国计算机科学家马纳瑞斯(Bill Manaris)给自然语言处理的定义为:“自然语言处理是研究人与人交际中以及人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。”

3. 语料库

语料库(Corpus,复数为Corpora或Corpuses)定义为:为语言研究和应用而收集的,在计算机中存储的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。语料库具有以下三个基本特征:样本代表性;规模有限性;机读形式化。

4. 语言模型

语言模型(language model) 通过对句子的上下文特征进行数学建模,来回答一个问题:出现的句子是否合理。语言模型是自然语言的基础,广泛应用于机器翻译、语音识别、拼写纠错、输入法、手写体识别等。

5. 词

**词(word)**被定义为能够形成完整言语的最小语言单位,词的最小语义部分称为词素(morpheme),词素可用形素(grapheme,字母和字符等书写符号)拼写出或用音素(phoneme, 口语中可区分的语音单位)。

6. 分词

分词(word segmentation),指对字符序列进行分块处理的过程,其输出结果由分开的有意义的词元组成,是形态分析的基础性步骤。

7. 语音分析

语音分析(speech analysis) 是要根据音位规则,从语音流中区分出一个个独立的音素,再根据音位形态规则找出音节及其对应的词素或词。

8. 词法分析

词法分析(lexical analysis) 是找出词汇的各个词素,从中获得语言学的信息,主要任务是词性标注和词义标注。

9. 句法分析

句法分析(parsing),发现句子内部结构的方法,显式地发现句子中可能存在的各种谓词-论元的依存关系。

10. 语义分析

语义分析(semantic parsing),在句子或文本中识别出意义块(meaning chunk),确定语言所表达的真正含义或概念,并尝试将其转换为某种数据结构的过程(将自然文本映射成计算机可处理的结构化表示),包括深层语义分析(deep semantic parsing)与浅层语义分析(shallow semantic parsing),又称语义角色标注(semantic role labeling)。

11. 语用分析

语用分析是研究语言所存在的外界环境对语言使用者所产生的影响。

12. 命名实体识别

命名实体识别(NER, Named Entity Recognition),又称未登录词识别,识别实体的每一次独立出现,一个命名实体代表了一个名词的实例,比如一个地点、一个人物或一个组织机构。(ACE任务包含7个主要类型实体:设施(FAC)、地理政治实体(GPE)、地点(LOC)、组织机构(ORG)、人(PER)、交通工具(VEH)、武器(WEA))。

13. 提及检测

提及检测(mention detection),检测某种提及的边界并有选择的确定其语义类型(如人物或组织机构)及其他属性(如名称、名词或者代词)。

14. 共指消解

共指消解(coreference resolution),也称指代消解(anaphora resolution),确定代词或名词短语指的是什么,将指代相同实体的提及归结到一个等价类中。

15. 文档分类

文档分类(document categorization/classification),称文本分类(text categorization/classification)或信息分类(information categorization/classification),其目的就是对大量的文档按照一定的分类标准(例如,根据主题或内容划分等)实现自动归类。

16. 情感分类

情感分类(sentiment classification) 或称文本倾向性识别(text orientation identification),以自然语言中的个人陈述,如意见(opinion)、感情(emotion)、情感(sentiment)、评价(evaluation)、信念(belief)以及推测(speculation)为主要研究目标,通过主观性(subjectivity)分析和情感(sentiment)分析,对文本进行分类,其中主观性分析对文本进行主观和客观的分类标注,情感分析更进一步将主观性文本划分为正向文本、负向文本以及中性文本。情感分类已经成为支撑舆情分析(public opinion analysis)的基本技术,如公司以利用该技术了解用户对产品的评价,政府部门可以通过分析网民对某一事件、政策法规或社会现象的评论,实时了解大众的态度。

17. 文本蕴含识别

文本蕴含识别(RTE,Recognizing Textual Entailment) 对一段文本中表示的事实进行推理(Text->Hypothesis),如需要知道一个句子中提到的事实是否被文档中前面的某个句子所蕴含。

18. 自动文摘

自动文摘(automatic summarizing或automatic abstracting) 将相同主题的若干文档的主要内容和含义自动归纳、提炼出来,形成摘要或缩写。
通过自动文摘不同的实现方式将自动文摘分为文档的摘录(extract)或文档的摘要(abstract)。摘录通过提取文档中最重要的部分(找到若干句子或句子片段)来表示文本的大意,可能也会包含少量次要的部分进行文摘;摘要通过理解文本,描述了对文档内容的总结,未必直接包含文档内容的原句。

19. 信息抽取

信息抽取(information extraction) 又称事件抽取(event extraction),指从文本中识别并抽取出特定的事件(event)或事实信息,来解决5W(WHO WHEN WHERE WHY WHAT)以及HOW的问题(谁在何时何地由于什么原因(对谁)做了什么(如何做))。例如,从时事新闻报道中抽取出某一恐怖事件的基本信息:时间、地点、事件制造者、受害人、袭击目标、伤亡人数等;从经济新闻中抽取出某些公司发布的产品信息:公司名称、产品名称、开发时间、某些性能指标等。

(1)信息抽取与信息检索

信息检索主要是从海量文档集合中找到与用户需求(一般通过关键词表达)相关的文档列表,而信息抽取则是希望直接从文本中获得用户感兴趣的事实信息。两者也有密切的关系,信息抽取系统通常以信息检索系统(如文本过滤)的输出作为输入,而信息抽取技术又可以用来提高信息检索系统的性能。

(2)信息抽取与问答系统

信息抽取与问答系统也有密切的联系。一般而言,信息抽取系统要抽取的信息是明定的、事先规定好的,系统只是将抽取出来的事实信息填充在给定的框架槽里,而问答系统面对的用户问题往往是随机的、不确定的,而且系统需要将问题的答案生成自然语言句子,通过自然、规范的语句准确地表达出来,使系统与用户之间形成一问一答的交互过程。

20. 问答系统

问答系统(QA,Question Answering System) :用自然语言方式提问,从信息库中检索,提供既准确又切合主题的答案。

21. 机器翻译

机器翻译(MT,Machine Translation):在保留意义的情况下,把一种语言的文字转换为另一种语言。机器翻译作为NLP的起源,是NLP一直的研究目标,没有最终解决,只有最新现状(State of art)