摘要

深度学习用于文字识别现在在一些场景中已经很成熟了,主要就是分为CTC和attention两种方案。现在基于attention的方案主要用LSTM和GRU,这种方式的主要问题是:训练和测试的都是one step by one step的,效率较低。
这篇文章提出了MASTER,其主要就是用CNN+Transformer的方式实现文字识别,这篇文章的主要创新点是在CNN中参考GCnet提出了Multi-Aspect GCAttention在CNN部分进行的改进。最近韩国的一篇论文也是采用CNN+Transformer的结构做文字识别的,其主要是在position encoding部分进行的创新。有兴趣的也可以读一下。
咋就直接解读创新点了,就不按文章的思路来了。

1. 网络结构

CNN部分主要是基于Resnet31修改而来的。
MASTER: Multi-Aspect Non-local Network for Scene Text Recognition论文解读_论文阅读
最后一个max_pool的窗口大小是1*2,保留更多宽度方向上的信息。整个CNN主要就是在Res模块后加上了multi-aspect gcattention模块。

1.1 multi-aspect gcattention模块
MASTER: Multi-Aspect Non-local Network for Scene Text Recognition论文解读_窗口大小_02
上图(a)表示GCBlock GCAttention模块相当于只是在通道C的方向上分割了h份,有点像Transformer中的多头操作,这里的h参数经过后面的讨论最后确定为8。
后面就是Decoder部分,Decoder部分重复了3次。参数3也是实验得出的。
MASTER: Multi-Aspect Non-local Network for Scene Text Recognition论文解读_窗口大小_03

2. 结果

结果就没啥好分析的了,直接附图。
MASTER: Multi-Aspect Non-local Network for Scene Text Recognition论文解读_ocr_04