未完待续…
目录
- 摘要
- 问题
- 解决对策
- 创新点
- 模型原理
- 基础知识补充
摘要
问题
阅读图像中的文字关键困难是稀有、多义和歧义的词(未登录的词)经常出现在图像中,例如地名、产品和运动队的名称。
以前解决方法:预先训练的词嵌入模型
思考方向:利用图像的多种形态中的信息来帮助理解场景文本的含义,例如瓶子上突出的文本最有可能是品牌。
解决对策
提出了一种新的 VQA 方法–多模态图神经网络(MM-GNN):首先将图像表示为由三个子图组成的图形,分别描述视觉、语义和数字模态。然后,引入三个聚合器,引导消息从一个图传递到另一个图,以利用不同模态的上下文,从而提炼节点的特征。更新后的节点为下游答疑模块提供了更好的功能。实
创新点
MM-GNN 能更好地表示场景文本,明显地促进了两个需要阅读场景文本的VQA任务的执行。
模型原理
定义三个图
- 图像信息的图
- 语义图
- 数字图
基础知识补充
邻接矩阵各版本attentionGraph attention Network
Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text论文笔记