文章目录

  • ​​1 从人工智能开始​​
  • ​​2 自然语言处理是什么​​
  • ​​3 自然语言处理的难点​​
  • ​​4 自然语言处理中的典型任务​​
  • ​​4.1 分类问题​​
  • ​​4.2 序列标注、序列生成、序列到序列问题​​
  • ​​4.3 词性标注​​
  • ​​4.4 分词​​
  • ​​4.5 句法分析(Parsing)​​
  • ​​4.6 共指消解 Coreference Resolution​​
  • ​​4.7 自动摘要​​
  • ​​4.8 机器翻译​​
  • ​​4.9 语法纠正​​
  • ​​4.10 情感分析​​
  • ​​4.11 谣言检测​​
  • ​​4.12 自然语言推理​​


原文:Natural language processing (NLP) is a field at the intersection of computer science, artificial intelligence, and linguistics.

译文:自然语言处理(NLP)是计算机科学、人工智能和语言学三个学科的交叉学科的研究领域。

1 NLP之绪论_句法分析

自然语言处理的目的是创建能够处理和理解人类语言的系统。


1 从人工智能开始

让机器具有人类的智能:

  • 机器感知(计算机视觉、语音
    信息处理)
  • 学习(模式识别、机器学习、强化学习)
  • 语言(自然语言处理)
  • 记忆(知识表示)
  • 决策(规划、数据挖掘)

2 自然语言处理是什么

自然语言≈人类语言。区别于人工语言(比如程序语言);用计算机对自然语言信息进行处理的方法和技术。

自然语言处理包括语音识别自然语言理解自然语言生成人机交互以及所涉及的中间阶段

1 NLP之绪论_句法分析_02


1 NLP之绪论_自然语言处理_03

语言分析:分析语言表达的结构和含义

  • 词法分析:形态还原、词性标注、命名实体(人名、地名、机构名)识别、分词(汉语、日语等)等;
  • 句法分析:组块分析、结构分析、依存分析;
  • 语义分析:词义、句义(逻辑、格关系、…)、篇章(上下文)(指代、实体关系、…);

语言生成:从某种内部表示生成语言表达

  • 词、句子、篇章的生成

多语言处理(机器翻译、跨语言检索):语言之间的对应、转换

不同的应用对上述任务有不同的要求。


3 自然语言处理的难点

1、人类语言是灵活的,动态的;

2、同一个意图的不同表达,甚至包含错误的语法等;

3、语言在不断的变化,如:新词等。

以中文分词为例:下面是一些例子:

1、交叉歧义

  • 这个/门/把手/坏了; /把/手/坏了

2、组合歧义

  • 个/人/一起/过去、个人/问题
  • 马/上/下来、马上/就/来

3、句子级歧义

  • 白天鹅在水里游泳
  • 研究所获得的成果

4、语义歧义

  • 配钥匙师傅:你配吗?
  • 食堂阿姨:你要饭吗?

4 自然语言处理中的典型任务

1 NLP之绪论_句法分析_04


1 NLP之绪论_句法分析_05


1 NLP之绪论_句法分析_06

4.1 分类问题

将一文字序列归于预先给定的一个类别集合中的某一类或某几类。

  • 文本分类
  • 主题识别
  • 情感分类
  • 信息过滤
    垃圾邮件过滤

1 NLP之绪论_句法分析_07

4.2 序列标注、序列生成、序列到序列问题

将一文字序列转换成另一个序列

  • 词性标注
  • 中文分词
  • 信息抽取
  • 机器翻译
  • 自动问答
  • 文本摘要

1 NLP之绪论_NLP_08

4.3 词性标注

为句子中的词标上预定义类别集合(标注集)中的类(词性,如名词、动词、形容词),为后续的句法/语义分析提供必要的信息。

输入:单词序列(一般为句子)
输出:每个单词的词性

1 NLP之绪论_NLP_09

4.4 分词

词是语言中最小的能独立运用的单位,也是语言信息处理的基本单位。分词是指根据某个分词规范,把一个“字”串划分成“词”串。

输入:字序列(一般为句子)
输出:对应每个字类别

1 NLP之绪论_机器翻译_10

4.5 句法分析(Parsing)

确定句子的组成

  • 词、短语以及它们之间的关系

句法分析任务的类型

  • 组块分析:基本短语识别
  • 组成成分分析(结构分析,完全句法分析):词如何构成短语、短语如何构成句子

依存分析

  • 词之间的依赖(或支配)关系

示例如下:

"John ate the cat"的组成分分析:

1 NLP之绪论_自然语言处理_11


"John ate the apple"的依存分析

1 NLP之绪论_机器翻译_12

4.6 共指消解 Coreference Resolution

1 NLP之绪论_句法分析_13


找出文本中的He,their等代词所代指的对象。

4.7 自动摘要

利用计算机自动地从原始文档中提取全面、准确地反映该文档中心内容的简洁、连贯的短文。

1、抽取性摘要

输入:单词序列(一般为多个句子)
输出:子序列的类别(子序列一般为一个句子)

1 NLP之绪论_机器翻译_14


2、总结性摘要

输入:单词序列(长)
输出:单词序列(短)

1 NLP之绪论_NLP_15

4.8 机器翻译

机器翻译(Machine Translation,简称MT)是指利用计算机实现自然语言之间的自动翻译。

输入:单词序列(或语音)
输出:单词序列(或语音)

1 NLP之绪论_机器翻译_16

4.9 语法纠正

输入:单词序列
输出:单词序列

1 NLP之绪论_NLP_17

4.10 情感分析

分析文章(评论)对某个对象(社会热点事件、产品或者服务)的态度(积极/正面还是消极/负面)。

  • 社会舆情分析:热点事件发现、预警
  • 企业市场决策:产品意见调查、产品推荐
  • 消费者购买决策

输入:字序列
输出:类别

1 NLP之绪论_句法分析_18

4.11 谣言检测

输入:字序列
输出:类别

1 NLP之绪论_自然语言处理_19

4.12 自然语言推理

输入:两个序列(如,两个句子)
输出:类别。矛盾 contradiction,蕴含 entailment,中性/中立 neutral。

1 NLP之绪论_句法分析_20