自然语言处理入门

  • 自然语言的概念
  • 自然语言的理解
  • 自然语言处理的概念
  • 自然语言处理的相关技术
  • 自然语言处理难点
  • 相关学习链接


自然语言的概念

自然语言是指人类日常使用的语言,如汉语、英语、法语、德语、等等。自然语言是人类交流和思维的主要工具。

自然语言的理解

人工智能早期研究的领域之一。
从微观上讲,语言理解是从自然语言到机器内部之间的一种映射。
从宏观上讲,语言理解是指机械能够执行人类所期望的某些功能。

自然语言处理的概念

为了研究在人与人交际中以及在人与计算机交际中的语言问题的一门科学。
利用计算机为工具对人类特有的书面形式和空头形式的自然语言的信息进行各种类型处理和加工的技术。

自然语言处理的相关技术

主要技术

将连续的自然语言文本切分成具有语义合理性和完整性的词汇序列

分词

将连续的自然语言文本切分成具有语义合理性和完整性的词汇序列

命名实体识别

识别自然语言文本中具有特定意义的实体(人、地机构、作品等)

词性标注

为自然语言文本中的每一个词汇赋予一个词性(名词、动词、形容词等)

依存句法分析

自动分析句子中的句法成分(主语、谓语、宾语等)

词向量与语义相似度

依托全网海量数据和深度神经网络技术实现对词汇的向量化表示,并据此实现了词汇的语义相似度计算

文本语义相似度

依托全网海量数据和深度神经网络技术实现对词汇的向量化表示,实现文本间的语义相似度计算的能力

篇章分析

分析篇章及文本的内在结构,进而分析文本的情感倾向,提取评论性观点,并生成反应文本关键信息的标签与摘要

机器翻译技术

利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)

自然语言处理难点

1. 单词的边界界定

在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是取用能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上,汉语也没有词与词之间的边界。

2. 词义的消歧

许多字词不单只有一个意思,因而我们必须选出使句意最为通顺的解释。

3. 句法的模糊性

自然语言的文法通常是模棱两可的,针对一个句子通常可能会剖析(Parse)出多棵剖析树(Parse Tree),而我们必须要仰赖语意及前后文的信息才能在其中选择一棵最为适合的剖析树。

4. 有瑕疵的或不规范的输入

例如语音处理时遇到外国口音或地方口音,或者在文本的处理中处理拼写,语法或者光学字符识别(OCR)的错误。

5. 语言行为与计划

句子常常并不只是字面上的意思;例如,“你能把盐递过来吗”,一个好的回答应当是把盐递过去;在大多数上下文环境中,“能”将是糟糕的回答,虽说回答“不”或者“太远了我拿不到”也是可以接受的。再者,如果一门课程上一年没开设,对于提问“这门课程去年有多少学生没通过?”回答“去年没开这门课”要比回答“没人没通过”好。