问答系统基本概念

  • 问答系统的目标:给定一个问题, 能够得到简短、精确的答案.
    系统定义:一个能回答任意自然语言形式问题的自动机。
  • 处理流程:
  • 分析问题.
  • 检索包含答案的数据(检索数据).
  • 提取答案.
  • 对应流程中的三个过程有三个研究的基本问题:
  • 问题分析:如何去分析问题;
  • 信息检索:如何根据问题的分析结果去缩小答案 可能存在的范围;
  • 答案抽取:如何从可能存在答案的信息块中抽取答案。
  • 问答系统的分类:
  • 在问题维度:问答系统可以分为限定领域(指系统能接受的问题只 能是关于某个特定的主题)的问答系统和开放领域 (指系统能接受的问题可以是任意主题的问题, 没 有任何限制)的问答系统.
  • 在数据维度:问答系统可以分为处理结构数据(或半结构数据)的问答系统 (例如关系数据)和处理无结构数据(例如文本)的问答系统.
  • 在答案维度:问答系统可以分为抽取式 (所谓抽取, 是指答案是从数据或者文本中抽取出 来的, 例如文本片段)问答系统和产生式(所谓产生, 是指答案是通过一定的规则或者内在的编码生成 出来的, 例如对话)问答系统。

问答系统的发展历程:

一、基于结构化数据的发展阶段:

  • 基于结构化数据的问答系统的主要思想是通过分析问题, 把问题转化为一个查询(query), 然后在结构化数据中进行查询, 返回的查询结果即为问题的答案。过程图如下:
  • 问答系统 标准问 扩展问 问答系统的分类_信息检索


二、基于自由文本数据的发展阶段:

  • 基于自由文本(free-text based)的问答系统属于开放域问答系统, 它只能回答那些答案存在于这个文档集合中的问题。过程图如下:
  • 问答系统 标准问 扩展问 问答系统的分类_问答系统_02


  • 问题分析
  • 问句分类: 问句分类是根据问句的答案类型对问句进行分类,一个问句分类到已有的分类结构中一个或几个类(软分类)。问句分类的方法主要包括模式匹配方法机器学习方法两类。
  • 问句主题提取:信息检索部分需要根据问题的关键信息来对文档库进行检索查询,了保证高相关性, 信息检索部分所使用的查询词都应该包含问题的主题。通过对问题进行句法分析,获得问题的中心词,然后选取中心词及其修饰词作为问题的主题。再将问题的主题作为查询词对文档库进行检索。
  • 信息检索:
  • 信息检索的主要目的是缩小答案的范围, 提高下一步答案抽取的效率和精度。信息检索一般分为两个步骤:
  • 文档检索: 即检索出可能包含答案的文档。
  • 段落检索: 即从候选文档中检索(抽取)出 可能包含答案的段落。
  • 答案抽取:
  • 答案抽取的主要目的是得到用户想要的答案,满足用户需求。为了提取答案, 一般有两个步骤:
  • 生成候选答案集合
  • 提取答案

三、基于问题答案对的问答系统:

  • 基于问题答案对的问答系统主要有两个发展阶段:
  • 基于常问问题(FAQ)列表的问答系统阶段
  • 基于社区问答(CQA) 的问答系统阶段
  • 过程图:
  • 问答系统 标准问 扩展问 问答系统的分类_自然语言处理_03


  • 问题分析:
  • 和基于自由文本的问答系统的问题分析部分基本一样,不过还多了几个不同的研究点。
  • 问题主客观的判断:基于结构数据的问答系统和基于自由文本的问答系统一般都只能处理客观、事实类型(factoid)的问题。然而在 CQA 数据中有大量的主观类型的问题, 而对于主观类型的问题和客观类型的问题有不同的处理方式,例如主观问题没有标准答案,而且答 案可以多个,然而客观问题却只能有一个标准答案。
  • 信息检索:
  • 找到和问题类似的问题,然后返回答案或者相似问题列表.
  • 研究适合问题答案对的检索模型两个问题的相似性判断是最关键的两个问题
  • 在经过问题分析之后,需要通过信息检索部分把相关的问题检索出来,然后才能在答案抽取部分抽取合适的答案
  • 除了从传统的信息检索的角度来看待信息检索部分,还可以从问题对相似性的角度来看这个问题。首先把与给定问题相似的问题找到,然后再在相似的问题中寻找最好的答案
  • 答案抽取部分:
  • 在答案抽取部分,由于经过信息检索部分我们已经得到了很多答案,答案抽取最重要的工作就是判断答案的质量.研究怎么从问题的众多答案中选择一个最好的答案.