引言:多模态大语言模型的幻觉问题及其重要性

在人工智能领域,多模态大语言模型(MLLMs)已经取得了显著的进步,它们在多种任务中展现出了类似人类认知和学习的能力,为人工通用智能(AGI)的未来开辟了前所未有的可能性。然而,尽管MLLMs在处理复杂任务时表现出色,它们仍然容易产生一种被称为“幻觉”的现象。这种现象指的是模型生成的内容虽然看似可信,但实际上与输入数据或已建立的世界知识相矛盾。这些幻觉不仅妨碍了MLLMs的实际部署,还可能导致错误信息的传播。

因此,能够检测MLLMs响应中的多模态幻觉的检测器迫切需要,以便向用户警示潜在风险,并推动更可靠MLLMs的发展。然而,现有的研究工作存在局限性,例如专注于单一任务、幻觉类别范围有限,以及缺乏细粒度的评估。这些限制阻碍了实际幻觉检测进展的快速发展,提出了一个问题:我们能否开发出一种统一的视角来检测MLLMs中的幻觉?

为了应对这一挑战,该研究提出了一个任务不可知的、工具增强的统一多模态幻觉检测框架UNIHD,该框架通过一系列辅助工具来验证幻觉的发生。还提出了一个新的多模态基准测试MHaluBench,以评估MLLMs中幻觉检测方法的有效性。通过详尽的评估和全面的分析,展示了UNIHD的有效性,并提供了针对不同幻觉类别应用特定工具的见解。

论文标题: 

Unified Hallucination Detection for Multimodal Large Language Models

公众号「夕小瑶科技说」后台回复“UNIHD”获取论文pdf。

多模态幻觉的定义与分类

在多模态大语言模型(MLLMs)的研究和应用中,幻觉现象是一个关键问题。幻觉指的是模型生成的内容虽然看似可信,但与输入数据或既定的世界知识相矛盾。这种现象不仅阻碍了MLLMs的实际部署,还可能导致错误信息的传播。因此,检测MLLMs中的多模态幻觉变得至关重要,以警示用户潜在的风险,并推动更可靠的MLLMs的发展。

1. 模态冲突幻觉

模态冲突幻觉发生在MLLMs生成的输出与其他模态的输入发生冲突时。例如,一个MLLM可能不准确地描述运动员的制服颜色,展示了一个属性级别的冲突,这是由于MLLMs在实现精细的文本-图像对齐方面的能力有限。

2. 事实冲突幻觉

输出可能与既定的事实知识相矛盾。图像到文本的模型可能生成与实际内容偏离的叙述,包含不相关的事实,而文本到图像的模型可能产生的视觉内容未能反映文本提示中包含的事实知识。这些差异突显了MLLMs在维持事实一致性方面的挑战。

UNIHD框架的提出与作用

今日Arxiv最热NLP大模型论文:浙江大学发布统一的幻觉检测框架UNIHD_模态

为了应对多模态幻觉检测中的关键挑战,提出了一个名为UNIHD的统一多模态幻觉检测框架。UNIHD通过以下步骤,利用一系列辅助工具来强有力地验证幻觉的发生:如基本声明提取、自动工具选择、并行工具执行以及带有理由的幻觉验证。

此外,该研究提出了一个新的多模态基准幻觉检测(MHaluBench),以评估MLLMs内幻觉检测方法的有效性。MHaluBench不仅包含了多种幻觉类别,而且还将图像到文本生成的输出和文本到图像生成的用户查询分割成明确的声明。通过基于MHaluBench的细致评估,展示了UNIHD框架的性能,并证实了多模态幻觉检测任务的持续挑战性和重要性。

MHaluBench基准的构建与特点

1. 幻觉案例收集

MHaluBench基准的构建始于广泛的幻觉案例收集,这些案例涵盖了图像到文本的生成(如图像描述和视觉问答)以及文本到图像的合成。在图像到文本生成方面,研究者从MS-COCO 2014和TextVQA的验证和测试集中抽取样本,并汇总了mplug、LLaVA和MiniGPT-4等模型的生成输出作为MHaluBench的基础数据。而在文本到图像生成方面,研究者从DrawBench和T2I-CompBench中获取初始标题,并通过ChatGPT增强这些标题,以包含更具体的信息,如对象、属性和事实细节等。经过精细化的标题指导下,DALL-E 3模型生成了视觉细节丰富的图像。

2. 细粒度人类注释

MHaluBench不仅仅是对响应进行评估,它还实现了基于声明的细粒度注释,以便精确地指出幻觉,从而为模型能力的提升提供有针对性的反馈。在图像到文本的任务中,研究者捕获了模型的文本输出,在文本到图像的场景中,研究者将用户查询分解为构成意图概念,这些概念随后被视为声明。注释标准是评估图像到文本输出是否与输入图像或世界知识冲突,以及文本到图像的视觉内容是否与声明或世界知识冲突。提取的声明被标记为幻觉或非幻觉,如果一个段落包含任何此类声明,则被视为幻觉;否则,被标记为非幻觉。如果整个响应包含至少一个幻觉段落,则被标记为幻觉。

今日Arxiv最热NLP大模型论文:浙江大学发布统一的幻觉检测框架UNIHD_自然语言处理_02

UNIHD框架的四个步骤

1. 关键声明提取

UNIHD框架的第一步是从生成的响应中提取核心声明,这是识别细粒度幻觉的前提。通过利用MLLMs的高级指令执行能力,可以高效地提取声明,从而避免了通常需要大量资源进行模型训练的情况。具体来说,GPT-4V/Gemini被用作基础LLM,以高效地从图像到文本模型的输出中提取每个响应的个别声明,并从文本到图像模型中分解用户指令为不同的声明。

今日Arxiv最热NLP大模型论文:浙江大学发布统一的幻觉检测框架UNIHD_自然语言处理_03

2. 针对声明的自动化工具选择

在提取了输入图像-文本的关键声明后,幻觉检测的挑战在于将每个声明与适当的面向方面的工具相匹配。研究者通过评估底层MLLMs是否能为一组给定的声明生成相关的查询,以提供给特定面向方面的工具所需的输入。为此,研究者提示底层MLLMs如GPT-4V/Gemini自动生成有意义的查询。例如,框架确定声明需要属性导向的问题“运动员右侧的制服是什么颜色?”和对象导向的查询“['运动员', '制服']”,从而绕过了对场景文本和事实导向工具的需求。

3. 并行工具执行

在自动生成的不同方面的问题之后,研究者并行实施这些工具,以收集广泛的知识,作为幻觉验证的基础。框架中使用的具体工具包括:(1) 面向对象的工具:使用开放集对象检测模型Grounding DINO捕获视觉对象信息,这对于检测对象级别的幻觉至关重要。例如,输入“['运动员', '制服']”会提示模型返回两个制服对象和两个运动员对象,以及它们的归一化位置坐标。(2) 面向属性的工具:使用底层MLLMs(如GPT-4V和Gemini)回答特定的属性级别问题。这些响应随后在同一MLLMs中用于幻觉验证,类似于自我反思的方法。(3) 面向场景文本的工具:如果生成的场景文本问题不是“无”,则调用MAERec作为场景文本检测工具,它能够识别图像中的场景文本及其对应的归一化四维坐标。(4) 面向事实的工具:为了协助验证事实冲突的幻觉,研究者利用Google Search API从Serper进行基于事实级别问题的互联网搜索。研究者提取并分析顶级搜索结果,并从API的响应中获得各种摘要。通过部署这套工具,框架系统地收集知识作为证据,以可靠地验证不同模态下的幻觉。

今日Arxiv最热NLP大模型论文:浙江大学发布统一的幻觉检测框架UNIHD_自然语言处理_04

4. 带有理由的幻觉验证

在最后阶段,研究者对每个声明ci进行二元预测,以确定其幻觉状态。根据证据支持的程度,声明被归类为HALLUCINATORY或NON-HALLUCINATORY。为了完成这一任务,研究者将收集的证据与原始图像及其相应的声明列表3整合成一个综合提示。随后,指导选择的MLLM(GPT-4V或Gemini)评估每个声明的幻觉潜力。在此过程中,MLLM还生成深刻的解释,以阐明其判断背后的理由。

今日Arxiv最热NLP大模型论文:浙江大学发布统一的幻觉检测框架UNIHD_自然语言处理_05

实验设置与基线比较

在本研究中,提出了一个新的多模态幻觉检测框架,UNIHD,旨在通过一系列辅助工具来验证多模态大型语言模型(MLLMs)生成内容中的幻觉现象。为了评估UNIHD的有效性,研究者构建了一个元评估基准,MHaluBench,它包含了图像到文本生成(包括图像描述(IC)和视觉问答(VQA))以及文本到图像合成任务的内容。

研究者将UNIHD与两个基线模型进行比较:Self-Check(2-shot)和Self-Check(0-shot),这两个基线模型基于CoT评估底层MLLM识别幻觉的能力,而无需外部知识。在实践中,使用GPT-4V和Gemini来识别细粒度的幻觉并解释其判断背后的推理。

今日Arxiv最热NLP大模型论文:浙江大学发布统一的幻觉检测框架UNIHD_模态_06

实验结果与分析

1. UNIHD在多模态幻觉检测中的表现

UNIHD框架在MHaluBench基准测试中的表现证明了其有效性。实验结果显示,UNIHD在图像到文本和文本到图像任务中均一致地超过了其他基线检测器。特别是,UNIHD利用GPT-4V在图像到文本生成任务中表现出色,其性能超过了Self-Check(2-shot)模型,这强调了集成外部工具对于更可靠的幻觉检测的重要性。

今日Arxiv最热NLP大模型论文:浙江大学发布统一的幻觉检测框架UNIHD_细粒度_07

2. 不同类型幻觉的检测效果

UNIHD在检测场景文本和事实幻觉方面相较于Self-Check(2-shot)有显著提升,这表明GPT-4V或Gemini固有的局限性使得工具提供的证据特别有价值。然而,UNIHD在识别属性级别的幻觉方面改进不大,这可能归因于缺乏专门的属性检测工具,而基于GPT-4V/Gemini的自我反思方法相对较弱。

3. UNIHD的解释合理性

UNIHD不仅能够检测出幻觉,还能提供合理的解释。例如,它能够正确识别出事实级别的幻觉“Fanta起源于美国二战期间”以及对象级别的幻觉“有三辆自行车停放在那里”。与Self-Check(2-shot)相比,UNIHD在提供更可信和有说服力的理由方面表现出色。

今日Arxiv最热NLP大模型论文:浙江大学发布统一的幻觉检测框架UNIHD_人工智能_08

总体而言,UNIHD框架在多模态幻觉检测方面展现了其优越性和普适性,能够在不同的任务和幻觉类型中取得更好的性能。通过集成多种工具,UNIHD能够从多个角度获取证据,以支持对幻觉的可靠验证。

UNIHD的局限性与未来方向

1. 多模态任务的范围

尽管研究扩展了幻觉检测的研究视野,但目前的框架UNIHD主要关注图像到文本的任务(如图像描述和视觉问答)和文本到图像生成任务。然而,该研究还没有涵盖其他多模态任务,如视频描述,这些任务同样容易出现幻觉。未来,会将这些额外的领域纳入UNIHD的考虑范围。

2. 封闭源MLLM的定价与推理速度

UNIHD主要建立在强大的封闭源模型之上。然而,封闭源模型通常伴随着成本,这引入了操作费用。此外,UNIHD依赖于多个外部工具来提供增强的幻觉验证证据,这导致了额外的推理时间。未来,将进一步探索训练具有工具的开源专用幻觉检测模型,以提高效率和降低成本。

3. 幻觉类别的范围

研究致力于开发一个全面的幻觉检测框架UNIHD,为MLLMs纳入了MHaluBench和UNIHD中的多种常见幻觉类别,包括对象、属性、场景文本和事实等方面。然而,目前的框架尚未涵盖现有文献中讨论的其他幻觉类别。未来,将扩大其范围,采用统一的方法来处理更广泛的幻觉类别,以加强检测机制的稳健性。

4. 工具使用的初步尝试

在早期尝试中,研究人员为检测特定类型的幻觉配置了专用工具,例如选择Grounded DINO模型作为首选的对象检测工具。然而,当前选择的工具可能不是最佳选择。有必要对现有模型进行广泛评估,以确定最有效的工具,以符合多模态检测目标的细微差别和复杂性。

总结

本文介绍了一个统一的问题框架,用于检测多模态大型语言模型(MLLMs)中的幻觉现象。该研究提出了一个精细化的基准数据集MHaluBench,以推动这一具有挑战性的研究方向。此外,还提出了一个统一的幻觉检测框架UNIHD,该框架能够自主选择外部工具,捕获相关知识以支持幻觉验证,并提供理由。实验结果表明,UNIHD在图像到文本和文本到图像生成任务中均表现出更好的性能,证实了其通用性和有效性。

总之,UNIHD框架通过结合多种工具和方法,提供了一个系统性的解决方案,以检测和验证MLLMs中的幻觉现象。尽管存在局限性,但UNIHD在推动幻觉检测技术的发展方面展现了显著的潜力,并为未来的研究方向提供了坚实的基础。

公众号「夕小瑶科技说」后台回复“UNIHD”获取论文pdf。

今日Arxiv最热NLP大模型论文:浙江大学发布统一的幻觉检测框架UNIHD_细粒度_09

今日Arxiv最热NLP大模型论文:浙江大学发布统一的幻觉检测框架UNIHD_机器学习_10