MASTER: Multi-Aspect Non-local Network for Scene Text Recognition论文解读

原创

怡宝2号 2021-09-07 11:37:14 博主文章分类：ocr ©著作权

文章标签 文字识别 ocr 窗口大小论文阅读性能提升 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者怡宝2号的原创作品，请联系作者获取转载授权，否则将追究法律责任

文章目录

摘要

深度学习用于文字识别现在在一些场景中已经很成熟了，主要就是分为CTC和attention两种方案。现在基于attention的方案主要用LSTM和GRU，这种方式的主要问题是：训练和测试的都是one step by one step的，效率较低。
这篇文章提出了MASTER，其主要就是用CNN+Transformer的方式实现文字识别，这篇文章的主要创新点是在CNN中参考GCnet提出了Multi-Aspect GCAttention在CNN部分进行的改进。最近韩国的一篇论文也是采用CNN+Transformer的结构做文字识别的，其主要是在position encoding部分进行的创新。有兴趣的也可以读一下。
咋就直接解读创新点了，就不按文章的思路来了。

1. 网络结构

CNN部分主要是基于Resnet31修改而来的。
MASTER: Multi-Aspect Non-local Network for Scene Text Recognition论文解读_论文阅读
最后一个max_pool的窗口大小是1*2，保留更多宽度方向上的信息。整个CNN主要就是在Res模块后加上了multi-aspect gcattention模块。

1.1 multi-aspect gcattention模块
MASTER: Multi-Aspect Non-local Network for Scene Text Recognition论文解读_窗口大小_02
上图(a)表示GCBlock GCAttention模块相当于只是在通道C的方向上分割了h份，有点像Transformer中的多头操作，这里的h参数经过后面的讨论最后确定为8。
后面就是Decoder部分，Decoder部分重复了3次。参数3也是实验得出的。
MASTER: Multi-Aspect Non-local Network for Scene Text Recognition论文解读_窗口大小_03