LORE: Logical Location Regression Network for Table Structure Recognition

表结构识别的逻辑位置回归网络

摘要

表结构识别(TSR)旨在将图像中的表提取成机器可理解的格式。最近的方法通过预测检测到的单元格框的邻接关系或学习从表图像中生成相应的标记序列来解决这个问题。

然而,它们要么依赖额外的启发式规则来恢复表结构,要么需要大量的训练数据和耗时的顺序解码器。在本文中,我们提出了另一种范式。我们将TSR建模为一个逻辑位置回归问题,并提出了一个新的TSR框架,称为LORE,即逻辑位置回归网络,该框架首次将逻辑位置回归与表单元格的空间位置回归结合在一起。我们提出的LORE在概念上更简单,更容易训练,并且比其他范式的先前TSR模型更准确。在标准基准上进行的实验表明,LORE始终优于现有技术。代码可在

https:// github.com/AlibabaResearch/AdvancedLiterateMachinery/ tree/main/DocumentUnderstanding/LORE-TSR。

LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE

如图1 (a)所示,旨在探索检测到的单元格对之间的邻接关系,以生成中间结果。它们依赖于繁琐的后处理或图优化算法来以逻辑坐标重建表格,如图1(a)所示。

另一种范式将TSR表述为标记语言序列生成问题(Zhong, ShafieiBavani, and Jimeno Yepes 2020;Desai, Kayal, and Singh 2021),如图1 (b)所示。它简化了TSR管道,但模型应该冗余地从噪声序列标签中学习标记语法,这导致训练数据量大得多。此外,由于这些模型的解码过程是顺序的,因此耗时较长。

事实上,逻辑坐标是定义良好的表结构的机器可理解的表示,它是重建表所必需的,如图1 (c)所示。

最近,工作的重点是探索表单元格的逻辑位置。然而,该方法通过顺序分类预测逻辑位置,并且不考虑逻辑位置之间的自然依赖关系。例如,表本身的设计是从上到下,从左到右,导致单元格的逻辑位置是相互依赖的。图2概述了逻辑位置的这种性质。此外,该研究还缺乏对各种TSR范式的全面比较。

LORE: Logical Location Regression Network for Table Structure Recognition文献_深度学习_02

典型的回归假设是不同的目标是独立分布的。逻辑位置回归是存在依赖关系

针对现有方法的局限性,我们提出了逻辑位置回归网络(简称LORE),它是一种概念上更简单、更有效的TSR框架。它首先在输入图像上定位表格单元格,然后预测逻辑位置以及单元格的空间位置。为了更好地模拟逻辑位置之间的依赖关系和约束,采用了级联回归框架,并结合了单元格间和单元格内的监督。LORE的推断是一个平行的网络前向传播,无需任何复杂的后处理或顺序解码策略。

  • 我们提出将TSR建模为逻辑位置回归问题,并设计了一个新的TSR框架LORE,该框架捕捉了单元格之间逻辑位置的依赖关系和约束,并预测了逻辑位置和空间位置。
  • 我们通过实证证明了逻辑位置回归范式非常有效,并且涵盖了以前TSR范式的功能,例如预测邻接关系和生成标记序列。
  • LORE提供了一种无需干预的方法来应用有效的TSR模型,消除了设计后处理和解码策略的努力。代码可用于支持对TSR的进一步调查。

相关工作

早期作品(Schreiber et al . 2017;Siddiqui等人(2019)引入了分割或检测框架来定位和提取表行和列的分裂行。随后,他们根据经验用预定义的规则对单元格框进行分组,从而重建表结构。这些模型将受到带有跨单元格或扭曲的表格的影响。最新基线(Long et al 2021;Smock, Pesala, and Abraham 2022;Zhang等人(2022)通过精心设计的检测器或基于注意力的合并模块来解决这个问题,以获得更准确的细胞边界和合并结果。然而,它们要么是为特定类型的数据集量身定制的,要么需要定制处理来恢复表结构,因此很难泛化。因此出现了利用神经网络直接预测表结构的模型。

TSR作为单元邻接探索

Chi等人(2019)提出将表格单元格视为文本分割区域并利用单元格对之间的关系。具体而言,他们应用图神经网络(Kipf和Welling,2017)将检测到的单元格对分为水平、垂直和无关关系。在此之后,有一些模型致力于通过使用精心设计的神经网络和添加多模态特征来改善关系分类(Qasim、Mahmood和Shafait,2019;Raja、Mondal和Jawahar,2020,2022;Liu等人,2021,2022)。但是,关系三元组集合与全局表格结构之间仍然存在差距。需要复杂的图优化算法或预定义的后期处理来恢复表格。

TSR作为标记序列生成

Li等人(2020);Zhong、Shafiei-Bavani和Jimeno Yepes(2020);Ye等人(2021)率先尝试以端到端的方式解决TSR问题。他们采用序列解码器生成表示表格结构的标记语言标签。然而,这些模型应该使用带有噪声标签学习标记语法,这使得方法难以训练,并且需要比其他范式更多的训练样本。此外,由于序列解码过程,这些模型需要花费大量时间。

TSR作为逻辑位置预测

Xue等人(2021)提出对每个检测到的单元格进行逻辑索引的有序分类来进行TSR,这与我们的方法很相似。**该模型利用图神经网络将检测到的单元格分类到相应的逻辑位置,但忽略了单元格逻辑位置之间的依赖关系和约束。**此外,该模型仅在少数几个数据集上进行了评估,而没有与强大的TSR基线进行对比。

问题定义

LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_03

图3:LORE的说明。它首先通过关键点分割在输入图像中定位表格单元格,然后预测逻辑位置和空间位置。采用级联回归器和跨单元格与单元格内的监督来更好地模拟逻辑位置之间的依赖关系和约束

在本文中,我们将TSR问题视为空间和逻辑位置回归任务。具体来说,对于表格的输入图像,类似于检测器,预测一组表格单元格LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_04作为其逻辑位置LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_05,以及空间位置LORE: Logical Location Regression Network for Table Structure Recognition文献_表结构_06,其中LORE: Logical Location Regression Network for Table Structure Recognition文献_深度学习_07表示起始行、结束行、起始列和结束列,LORE: Logical Location Regression Network for Table Structure Recognition文献_深度学习_08表示第i个单元格的四个角点,N是图像中的单元格数量。

使用预测的表格单元格由其空间和逻辑位置表示,图像中的表格可以转换为机器可理解格式,例如关系数据库。此外,邻接矩阵和表格的标记序列可以通过其逻辑坐标直接派生,而不需要启发式规则(参见补充部分1)

Methodology

本节详细介绍了我们提出的LORE,这是一种TSR框架,用于回归单元格的空间和逻辑位置。如图3所示,它采用CNN主干网络从输入图像中提取表格单元格的视觉特征。然后通过两个回归头来预测单元格的空间和逻辑位置。我们特别利用级联回归器,并采用跨单元格和单元格内的监督来模拟逻辑位置之间的依赖关系和约束。以下各子部分分别介绍这些关键组件。

表单元格特征准备

为了简化空间和逻辑位置的联合预测,我们采用关键点分割网络(Zhou、Wang和Krahenb ¨ uhl,2019;Long等人,2021)作为特征提取器,并将图像中的每个表格单元格建模为其中心点。

对于宽度为W、高度为H的输入图像,该网络产生一个特征图LORE: Logical Location Regression Network for Table Structure Recognition文献_深度学习_09和一个单元格中心热图LORE: Logical Location Regression Network for Table Structure Recognition文献_深度学习_10,其中R和d是输出步长和隐藏大小;对应LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_11于检测到的单元格中心,而LORE: Logical Location Regression Network for Table Structure Recognition文献_表结构_12指代背景。

在后续的模块中,在检测到的单元格中心LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_13处,使用CNN特征表示LORE: Logical Location Regression Network for Table Structure Recognition文献_表识别_14

空间位置回归

选择预测四个角点而不是矩形边界框可以更好地处理表格的倾斜和扭曲。对于空间位置,主干网络f的特征通过3×3卷积、ReLU和另一个1×1卷积得到中心LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_15的预测LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_16,其中LORE: Logical Location Regression Network for Table Structure Recognition文献_表识别_17

逻辑位置回归

由于表格单元格的逻辑位置之间存在密集的依赖关系和约束,仅从单元格中心的视觉特征中学习逻辑坐标是相当具有挑战性的。利用具有跨单元格和单元格内监督的级联回归器来明确地模拟单元格之间的逻辑关系。

  1. 基础回归器 为了更好地从图像中模拟逻辑关系,首先将视觉特征与空间信息相结合。具体来说,单元格预测角点的特征被计算为其视觉特征和2维位置嵌入的总和:

LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_18

其中PE指的是2维位置嵌入函数(Xu等人,2020年,2021年)。然后将四个角点的特征添加到中心特征f(i)中,以增强每个预测单元格中心LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_19的表示,如下所示:

LORE: Logical Location Regression Network for Table Structure Recognition文献_表识别_20

其中[w1, w2, w3, w4]为可学习参数。

然后采用消息传递和聚合网络来整合单元格视觉空间特征之间的相互作用:

LORE: Logical Location Regression Network for Table Structure Recognition文献_表识别_21

我们使用自我注意力机制(Vaswani等人,2017年)在LORE中避免了额外假设表格结构的分布,而不是以前的方法(Qasim、Mahmood和Shafait 2019年;Xue等人2021年)所使用的图神经网络,将在实验中进一步讨论。

基础回归器的预测然后通过一个线性层计算,该线性层使用ReLU激活函数从LORE: Logical Location Regression Network for Table Structure Recognition文献_表结构_22得到,即: LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_23

  1. 堆叠回归器 尽管基础回归器编码了单元格视觉空间特征之间的关系,但每个单元格的逻辑位置仍然单独预测。

**为了更好地捕捉逻辑位置之间的依赖关系和约束,**采用了一个堆叠回归器来重新查看基础回归器的预测。具体来说,将增强特征LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_24和基础回归器的逻辑位置预测LORE: Logical Location Regression Network for Table Structure Recognition文献_深度学习_25作为输入传递给堆叠回归器。堆叠回归器可以表示为:

LORE: Logical Location Regression Network for Table Structure Recognition文献_深度学习_26

其中LORE: Logical Location Regression Network for Table Structure Recognition文献_深度学习_27是一个可学习的参数,LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_28LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_29表示堆叠回归函数,它具有与基础回归函数相同的自注意力结构和线性结构,但具有独立的参数。堆叠回归器的输出LORE: Logical Location Regression Network for Table Structure Recognition文献_深度学习_30

在推理阶段,将LORE: Logical Location Regression Network for Table Structure Recognition文献_表识别_31的四个分量分配给最近的整数即可得到结果。

  1. 单元格内单元格间 为了使逻辑位置回归器更好地理解逻辑位置之间的依赖关系和约束,我们提出了单元格间和单元格内监督,总结如下:1)不同单元格的逻辑位置应该是互斥的(单元格间)。2)一个表格单元格的逻辑位置应该与其跨越范围一致(单元格内)。

实际上,相隔很远的单元格的预测很少相互矛盾,因此我们仅对相邻对进行采样以进行单元格间监督。更正式地说,单元格间和单元格内损失的方案可以表示为:

LORE: Logical Location Regression Network for Table Structure Recognition文献_表结构_32

其中LORE: Logical Location Regression Network for Table Structure Recognition文献_表识别_33是水平(垂直)相邻对的集合,即对于一对单元格LORE: Logical Location Regression Network for Table Structure Recognition文献_深度学习_34,单元格LORE: Logical Location Regression Network for Table Structure Recognition文献_深度学习_35在同一行(列)中与单元格j相邻且在单元格j的右侧(下方),并且LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_36是单元格i和单元格j的预测逻辑索引。

  • 对于单元格间的损失,我们只考虑相邻单元格的逻辑位置。如果两个单元格的逻辑位置相互冲突(例如,一个单元格的顶部边界与另一个单元格的底部边界重合),则对损失进行惩罚。否则,损失为零。
  • 对于单元格内的损失,我们考虑一个单元格内的所有点。如果一个单元格内的任何点的逻辑位置与其跨越范围不一致(例如,一个点位于一个单元格的顶部边界上,但该点的逻辑位置指示它应该位于另一个单元格内),则对损失进行惩罚。否则,损失为零。

LORE: Logical Location Regression Network for Table Structure Recognition文献_表识别_37

$\mathrm{where}M_{r}={i|r_{e}^{(i)}-r_{s}^{(i)}\neq0}\mathrm{and~}M_{c}=\{i|c_{e}{(i)}-c_{s}{(i)}\neq 0 $是多行和多列单元格的集合。

然后,跨单元格和单元格内的损失(I2C)如下:

LORE: Logical Location Regression Network for Table Structure Recognition文献_深度学习_38