问答系统是信息检索的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。其中问答系统是目前人工智能和自然语 言处理领域中倍受关注并具有广泛发展前景的研究方向。不同类型的问答系统对于数据处理的方法存在不同,一般问答系统的处理框架都包括问句理解、信息检索、答案生成三个功能组成部分。
**问句理解:**顾客的意图只是一种抽象形式,如果机器理解则需要转换成机器能理解的形式,以此作为答案检索的依据。在研究过程中,信息需求作为用户意图的代表,根据问句的语义结构可以从问题类别和问题内容两方面来表示。通常采用自然语言技术对问题进行深层次的理解。
**信息检索:**根据问句理解得到的信息表示,信息检索负责从已购语料库、问答知识库中检索相关信息,传递给后续的答案生成模块。基于不同的问答系统,系统的检索模型以及检索数据形式也不同。对于基于问句答案对的问答系统,信息检索处理是通过问句检索得到与用户提问相似的候选问句,返回对应的候选答案列表。问句检索的主要研究方向在于如何缩小用户提问与知识库中问句之间的语义鸿沟
**答案生成:**基于信息检索得到的检索信息,答案生成模块主要实现候选答案的抽取和答案的置信度计算,最终返回简洁性、正确性的答案。按照答案信息粒度,候选答案抽取可以分为段落答案抽取、句子答案抽取、词汇短语答案抽取。答案置信度计算是将问题与候选答案进行句法和语义层面上的验证处理,从而保证返回答案是与用户提问最为匹配的结果。应用最广泛是基于统计机器学习的置信度计算方法

hanlp 智能问答 智能问答系统功能_智能问答


hanlp 智能问答 智能问答系统功能_智能问答_02


hanlp 智能问答 智能问答系统功能_问答系统_03


机器学习做法:

1.潜在语义分析技术(Latent Semantic Analysis,LSA):将词句映射到低维连续空间,可在潜在的语义空间上计算相似度。
2.PLSA(Probabilistic Latent Semantic Analysis)或者LDA(Latent Dirichlet Allocation)等浅层主题模型技术方向。
优点:对文本的语义表示形式简洁,较好地弥补了传统词汇匹配方法的不足
缺点:无法完全替代基于字词的匹配技术

深度学习:
基于神经网络训练的 Word2vec来进行文本匹配计算

缺点:
无监督的 Word2vec 在句子匹配度计算的实用效果上还是存在不足,而且本身没有解决短语、句子的语义表示问题
句子级别上的神经网络语言模型:DSSM 模型(Deep Structured Semantic Model)
基于二维交互匹配的卷积匹配模型
多视角循环神经网络匹配模型(MV - LSTM)
基于矩阵匹配的的层次化匹配模型 MatchPyramid

虽然模型的结构非常多种,但底层结构单元基本以全链接层、LSTM、卷积层、池化层为主

基于检索的方法的优点包括能找出很有趣、多样性很高的回复;大量借鉴了搜索引擎上的方法,可以直接采用搜索引擎上的方法(learning to rank)来进行评估。其缺点在于对话的质量完全取决与 index 的质量。

基于生成式的方法的优点包括支持端到端的学习;由于不受到 Index 的束缚,生成模型可以进行更多的变形,比如将风格、情感引入到生成式对话中,对生成式对话进行控制等。不过其缺陷也很明显:一是该方法不太好评估,现在的评估方法依赖于大量标注,但各自的标注不一,针对目前的生成式文章也无法判断谁提出的方法更好一些;二是相对于检索模型,它的多样性还是要差一些。