论文总结:

1、提出单阶段全卷积点收集网络(PGNet),PG-CTC不用字符级标注,GRM图增强模块提高识别性能;

2、列举一系列成果,多是基于两阶段或实时应用效率很低的

3、任意形状文本阅读中,两阶段模型非极大值抑制(NMS)和感兴趣区域(ROI)费时间;字符级标注费人工;textDragon和mask textSpotter假设方向是确定的,在更多的场景下不适用;

4、提出了一种新颖的框架PGNet,用于支持点收集操作的实时文本阅读。PGNet是一个基于多任务学习的单样本文本检测器。给出了PGNet的体系结构,采用FCN (Milletari, Navab, and Ahmadi 2016)模型同时学习文本区域的各种信息,包括文本中心线(TCL)、文本边界偏移量(TBO)、文本方向偏移量(TDO)和文本字符分类图(TCC)。像素级字符分类图使用提出的点收集CTC (PG-CTC)损失进行训练,使其不受字符级注释。在后处理阶段,利用TCL和TDO图提取每个文本实例的阅读顺序中的中心点序列,并结合TBO图中对应的边界偏移信息得到检测结果。利用PG-CTC解码器,将高层二维TCC映射序列化为字符分类概率向量序列,再将其解码为识别结果。实验证明效果很棒

5、受之前文章启发加入GRM模块,提高识别率,+重复上述内容

6、回顾场景文本检测和图神经网络进展。了解其他网络可以看这段

7、对架构进行解读,首先,将输入图像输入到带有FPN的stem主干中以产生特征Fvisual。然后利用Fvisual预测TCL、TBO、TDO和像素级TCC map在1/4大小的输入图像上并行进行多任务学习。在训练阶段,TCL、TBO和TDO由相同比例的标签图监督,而PG-CTC缺乏字符级标注。在推理阶段,从TCL中提取每个文本实例的中心点序列,并结合TDO信息进行排序,恢复正确的阅读顺序,使该方法能够正确识别非传统阅读方向的文本。借助TBO提供的相应边界偏移信息,通过多边形复原实现单个镜头中各文本实例的检测。同时,PG-CTC解码器将高层二维TCC映射序列化为字符分类概率序列并解码为最终的文本识别结果。

8、介绍点聚集操作,根据每个文本区域中心的中心点,从TCC图中收集字符分类概率序列,输出Pπ是大小为N × 37的字符分类概率序列。

9、介绍PG-CTC,我们可以计算多边形文字级标注的中心线,并在训练过程中对其进行密集采样以获得中心点序列πi,而不是使用字符级标注。随着大数据的训练,学习TCC中每个像素的字符分类信息。

10、推理过程:从TCL的map中提取中心点序列,(用到形态学方法),可以从TDO地图中提取每个点的文本方向。计算所有点的平均方向,根据沿该方向投影的长度排序,得到中心点序列 π,提取字符分类概率序列Pπ

the PG-CTC decoder can be denoted as

Rπ = CT C decoder(Pπ), 其中Rπ表示π的转录

对于多边形复原,在相同位置的TBO图上获取相应的π边界点对,并顺时针连接所有π边界点以获得完整的多边形表示。有关多边形恢复的更多细节,请参阅我们之前的SAST (Wang et al. 2019a)。

与基于CTC的CRNN框架相比,PG-CTC可以处理任意形状的多文本图像,扩展了CTC损失的应用范围。

11、网络分两种,PGNet- accuracy和PGNet- efficient,分别记为PGNet- a和PGNet- e,PGNet-A采用ResNet-50作为骨干网,PGNet-E采用EfficientNetB0。将来自网络不同层次的特征图以FPN的方式进行三次逐步融合,得到大小为输入图像1/4的融合特征图Fvisual。TCL和其他特征图并行预测,其中我们采用一个1 × 1的卷积层,TCL, TDO, TBO, TCC map的输出通道数分别为{1,2,4,37}

12、介绍TCL、TBO,TDO,

上传失败

任意形状文本的标签生成如上图所示。TCL映射是文本区域的缩小版分割。TBO映射表示TCL中每个像素与其文本区域上下边缘对应点对之间的偏移量,有助于在推理中确定文本区域的边界。我们按照SAST (Wang et al. 2019a)生成TCL和TBO map,详细介绍。受人类阅读机制的启发,眼睛沿着中心线从一个字符移动到下一个字符,在阅读过程中,通过估计TDO map来恢复场景文本组件的阅读顺序,这对检测和识别任务都有帮助,特别是对于非传统阅读方向的场景文本。TDO映射表示TCL映射中每个像素到下一个读取位置的偏移向量。对于四边形区域标注,偏移向量以左边缘中心点到右边缘中心点为方向,其幅值为按字符数归一化的文本区域长度。将4个以上顶点的多边形标注视为一系列连接在一起的四边形,可以得到TBO图和TDO图 ,如前所述,由四边形逐渐生成。


# 原版论文 The label generation of arbitrarily-shaped text is shown in Fig. 4. The TCL map is the shrunk version segmentation of the text region. The TBO map indicates the offset between each pixel in TCL and the corresponding point pair in the upper and lower edge of its text region, which helps to determine the boundaries of text regions in the inference.We follow SAST (Wang et al. 2019a) to generate TCL andTBO map, where more details are introduced. Inspired by the reading mechanism of humans that the eye moves from one character to the next character along the centerline of text region while reading, the TDO map is estimated to recover the reading order of scene text components, which benefits both detection and recognition tasks, especially for those scene text in non-traditional reading directions. The TDO map indicates the offset vector of each pixel in the TCL map to the next reading position. For a quadrilateral region annotation, the direction of the offset vector is from the center point of the left edge to the center point of the right edge, and its magnitude is the length of text region normalized by the number of characters. Polygonal annotations of more than four vertices are treated as a series of quadrangles connected together, and TBO map and TDO map can be generated gradually from quadrangles as described before.


13、训练的损失计算

The loss of multi-task learning can be formulated as

L = λ1Ltcl + λ2Ltbo + λ3Ltdo + λ4Ltcc

where Ltcl, Ltbo, Ltdo and Ltcc represent the loss of TCL, TBO, TDO and TCC maps.

We train TCL branch by minimizing the Dice loss , and the Smooth L1 loss is adopted for TBO and TDO map, while TCC map is trained with PG-CTC loss as mentioned before. The loss weights λ1, λ2, λ3, and λ4 are set to {1.0, 1.0, 1.0, 5.0} empirically.

14、介绍图改进模块,由语义和视觉两部分合并,经3个FC层输出

15、验证TDO和图改进模块有实际增强效果

16、比其他现有的网络有多处优点,速度,精度等

17、鸣谢,附录:图卷积网络、证明PGNet和GRM模块有增加效果的关系