自然语言处理的方法

分词

分词的任务定义为:输入一个句子,输出一个词语序列的过程。如将「严守一把手机关了。」输出为「严守一/把/手机/关/了。」

目前的两种主流方法包括基于离散特征的 CRF 和 BILSTM-CRF。

挑战包括交叉歧义、新词识别、领域移植、多源异构数据融合及多粒度分词等。

命名实体

现在的主流方法包括:

1. 规则系统

2. 基于机器学习的学习系统

目前的挑战包括新领域旧实体类别识别、新实体类别识别等,解决办法包括利用构词知识、领域知识,使用强化学习、跨领域学习、半监督学习、众包、远程监督等机器学习方法。

句法分析

句法分析的任务定义为:输入一个句子的词语序列,输出为句子结构表示的过程。依存句法分析输出的是依存句法树,下面以依存句法分析为例。

目前采用的方法包括:

基于图的方法,即从图中搜索得到句法树,主要的任务在于确定每个依存弧的分值;

基于转移的方法:即通过一系列移进规约的动作得到句法树,主要任务在于基于当前状态,确定每个动作的分值。

现在的主流做法是在上述两者的基础上加入深度学习的方法。

语义分析

定义是将文本转换为可计算的知识表示。目前学术界语义表达方法包括:1)浅层语义分析;2)逻辑语义分析;3)抽象语义表示分析。

篇章分析

篇章的定义指的是一系列连续的语段或句子构成的语言整体单位,核心问题是篇章结构和篇章特征,其所基于的语言学基本理论包括中心理论、脉络理论、RST 等多种语言学基本理论。

基本结构分析

篇章结构指的是篇章内部关系的不同结构化表达形式,主要包括逻辑语言结构、指代结构、话题结构、功能结构、事件结构等范畴。

基本特征的研究

包括连接性、连贯性、意图、可接受性、信息性、情景性和跨篇章等七个基本特征。

自然语言生成

张民教授总结了在基于规则、基于知识的检索及基于深度学习等三种自然语言生成方法的优缺点对比及适用场景。

基于规则

它的一大优势在于具体领域的能做到精准回答;但相应地,在可移植性及可扩展性上则存在不足;适用的场景以个人助理为主,和任务驱动型的对话。

基于知识的检索

它的优点在于知识库易于扩充,答案没有语法错误;但对话连续性差,容易出现答非所问的情况;适用场景以问答系统、娱乐聊天为主。

基于深度学习

基于数据驱动的方法能够省去显示语言理解等过程,但需要大量语料支持;适用场景以虚拟影像、智能聊天机器人为主的有丰富领域语料的场景。

自然语言处理的应用

1. 情感和情绪分析

在业界研究和应用,情感一般包括正面、负面和中性,而情绪一般表现为喜、怒、哀、乐、惊、恐、思等。情绪和情感都是人对客观事物所持的态度体验,只是情绪更倾向于个体基本需求欲望上的态度体验,而情感则更倾向于社会需求欲望上的态度体验。情感和情绪分析包括问题驱动模型驱动两个方面,在工业界和学术界都已经有着广泛的应用和研究。

2. 问答

智能问答主要有三方面的要求:一是理解人类语言的内涵;二是推敲知识获取的意图;三是挖掘精确贴切的知识。

相应地,问答系统需要解决三个问题:

1. 问题分类、分析和理解(一阶逻辑、二阶逻辑)

2. 答案的匹配、检索

3. 答案生成

问答的四个难点及解决方法

1)多源异构大数据背景下开放域问答的瓶颈。在效率与覆盖率的权衡下,数据大小与知识占比的关系是每个研究者需要考虑的问题;而结构化数据与非结构化数据的混杂,导致知识挖掘与存储存在相应的难点;此外,数据时效性的变化也给新旧知识的应用带来了挑战。

以往是用 IR 或 RC 的方法,但目前流行采用对检索所得的多个段落排序,也就是在 IR 和 RC 中加入了排序的操作,进而进行面向多段落的提取/生成答案。

2)深度语义理解的问答技术。以 Watson 为代表的系统采用的是抽取与置信度计算的方法;目前则是阅读理解抽取/生成式方法推动了技术发展。

3)知识库与知识图谱。以往的知识库存在可靠性、包容性低,存在通用性不高的问题,目前研究者们更多考虑用当下热门问题自动生成来实现知识图谱的自动更新和扩展。

4)多模态场景下的问答。问题的对象往往潜藏于多媒体,且答案的判断需要参考其它媒体的数据资源。目前出现了以语言处理 RNN 与图像处理的 CNN 的有机结合方法,实现跨媒体的特征共享、独立和抗依赖。

对话

根据应用场景的不同,可分为开放域及封闭域对话系统。高准确率的上下文篇章建模、对话状态转移模型和领域知识建模是目前对话亟待解决的问题。

知识图谱

包括知识建模、知识图谱构建、知识融合、知识推理计算以及知识赋能等主要任务。知识图谱构建是目前学术界和产业界研究热点,包括实体及其属性识别、事件抽取、实体事件关系抽取、概念实例化和规则学习等。

机器翻译

机器翻译目前已经取得较大进展,未来机器翻译可以从如下领域做发展:

知识建模和翻译引擎,从词序列到语义到知识,利用知识图谱和各类知识(语言学知识、领域知识、常识知识等)进一步延伸机器翻译的边界;

研究新的翻译模型,从广度(篇章)和深度(深度理解)进一步推进机器翻译的理解能力。此外,还需要适应产业化的需求和国家战略需求。