一、问题背景

  • 机器展示智能的一个关键方法是能够感知周围的世界,并能够用自然语言与人类交流有关这个世界的信息。

chatgpt api 多轮问答 多轮问答是什么_人工智能

  • 要与人类自然对话,最基本但最具挑战性的任务是对话理解,对话理解的作用是在机器做出反应之前,教会机器阅读和理解对话上下文。

二、基于知识图谱的单模态多轮问答

多轮对话:根据上下文内容,进行连续的,以达到解决某一类特定任务为目的的对话。

1、数据集形式

chatgpt api 多轮问答 多轮问答是什么_chatgpt api 多轮问答_02

图1 一个对话由两个注释员生成,其中一个注释员给出了目标和相关知识

2、多轮问答模型

chatgpt api 多轮问答 多轮问答是什么_chatgpt api 多轮问答_03

(1)基于检索的模型包括两个主要步骤:1)从数据库中检索候选回应;2)从候选回应中选择最佳回应。检索式模型有BERT模型。 (2)基于生成的模型主要有四部分组成:话语编码器、知识编码器、知识管理器和解码器。生成式模型有Seq2seq模型。

三、多模态多轮问答

1、数据集形式

chatgpt api 多轮问答 多轮问答是什么_神经网络_04

2、多轮问答模型

 

chatgpt api 多轮问答 多轮问答是什么_知识图谱_05

 1、文本模态——文本上下文编码器使用预训练模型——GPT模型;

2、图像模态——图像上下文编码器使用预训练模型——Faster R-CNN模型;

3、使用Transformer架构实现对话解码器,并与文本编码器共享其权重。

四、基于知识图谱的多模态多轮问答

chatgpt api 多轮问答 多轮问答是什么_神经网络_06

 1、文本模态利用预训练和知识图谱构建一个可自由扩展、完善、替代各功能部件的深度问答架构,能同时支持结构化和非结构化文本数据的问答,更好地支持客户各种个性化的业务场景。

2、知识图谱是利用本体设计及图谱编辑来进行自动推理。

3、目前的多模态多轮问答是基于问题/答案对的问答方式,需要用户提供相应的多轮问题/答案对,并按一定的规则进行整理。而基于知识图谱的问答方式,以三元组形式存储实体、事件或者概念以及他们之间的关系。基于问题/答案对的问答系统能够很快速直观的解决问题,但不能很好的理解上下文和意图模糊的问题。基于知识图谱的问答系统能够更好的去对问题中模糊的部分通过多轮交互来确认意图,较为精准的匹配问题答案。相对于问题/答案对问答系统一对一的相似性计算,知识图谱中的数据具有关联性,从问题到答案的匹配过程中,可以用到知识图谱大量关联节点的关系,提高语义理解能

五、基于情绪或风格的多模态多轮问答

chatgpt api 多轮问答 多轮问答是什么_人工智能_07

在多模态多轮问答中利用图像、情绪或风格和问答对进行多模态融合可以更好的吸引人进行多次的对话,并且使得人机对话更受欢迎。

 1、机器展示智能的一个关键方法是能够感知周围的世界,并能够用自然语言与人类交流有关这个世界的信息。要与人类自然对话,就必须理解人类对他们所生活的世界所说的自然事物,并做出相应的回应。这包括理解他们所感知的东西,例如他们所看到的图像,这些图像对人类的语义意味着什么,以及情绪和风格如何影响这些观察所得出的语言和对话。

2、为了实现机器能够让人类参与对话的长期目标,我们的模型应该吸引说话伙伴的兴趣。基于图像的交流,即根据给定的照片进行对话,是一种自然吸引人的设置。多轮对话的上下文很可能包含一个人的情绪或者风格,所以在多轮对话中知道对方的情绪或者风格也是吸引人的一个关键因素。

六、应用场景

chatgpt api 多轮问答 多轮问答是什么_chatgpt api 多轮问答_08

 聊天机器人

chatgpt api 多轮问答 多轮问答是什么_神经网络_09

 自动回复客户信息

用于服务行业(商场、餐厅等)

音乐、电影、书籍推荐、商品推荐、订餐等,这些场景虽然看起来是开放的,但其实聊天机器人能够在多轮对话过程中收集用户的需求,并基于特定的信息库为用户检索并推荐满意的答案,甚至完成商品的推荐并促成成交。