未完待续…

目录

  • ​​摘要​​
  • ​​问题​​
  • ​​解决对策​​
  • ​​创新点​​
  • ​​模型原理​​
  • ​​基础知识补充​​

摘要

问题

阅读图像中的文字关键困难是稀有、多义和歧义的词(未登录的词)经常出现在图像中,例如地名、产品和运动队的名称。
以前解决方法:预先训练的词嵌入模型
思考方向:利用图像的多种形态中的信息来帮助理解场景文本的含义,例如瓶子上突出的文本最有可能是品牌。

解决对策

提出了一种新的 VQA 方法–多模态图神经网络(MM-GNN):首先将图像表示为由三个子图组成的图形,分别描述视觉语义数字模态。然后,引入三个聚合器,引导消息从一个图传递到另一个图,以利用不同模态的上下文,从而提炼节点的特征。更新后的节点为下游答疑模块提供了更好的功能。实

创新点

MM-GNN 能更好地表示场景文本,明显地促进了两个需要阅读场景文本的VQA任务的执行。

模型原理

定义三个图

  1. 图像信息的图
  2. 语义图
  3. 数字图

基础知识补充

​​邻接矩阵​​​各版本attention​​Graph attention Network
Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text论文笔记