【论文精读】Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

原创

浪里摸鱼 2023-03-08 07:26:08 ©著作权

©著作权归作者所有：来自51CTO博客作者浪里摸鱼的原创作品，请联系作者获取转载授权，否则将追究法律责任

未完待续…

摘要

阅读图像中的文字关键困难是稀有、多义和歧义的词（未登录的词）经常出现在图像中，例如地名、产品和运动队的名称。
以前解决方法：预先训练的词嵌入模型
思考方向：利用图像的多种形态中的信息来帮助理解场景文本的含义，例如瓶子上突出的文本最有可能是品牌。

提出了一种新的 VQA 方法–多模态图神经网络(MM-GNN)：首先将图像表示为由三个子图组成的图形，分别描述视觉、语义和数字模态。然后，引入三个聚合器，引导消息从一个图传递到另一个图，以利用不同模态的上下文，从而提炼节点的特征。更新后的节点为下游答疑模块提供了更好的功能。实

MM-GNN 能更好地表示场景文本，明显地促进了两个需要阅读场景文本的VQA任务的执行。

定义三个图

邻接矩阵各版本attentionGraph attention Network
Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text论文笔记

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯