LORE: Logical Location Regression Network for Table Structure Recognition文献

原创

nuocheng 2024-03-12 11:37:28 博主文章分类：文献分享 ©著作权

©著作权归作者所有：来自51CTO博客作者nuocheng的原创作品，请联系作者获取转载授权，否则将追究法律责任

LORE: Logical Location Regression Network for Table Structure Recognition

表结构识别的逻辑位置回归网络

摘要

表结构识别(TSR)旨在将图像中的表提取成机器可理解的格式。最近的方法通过预测检测到的单元格框的邻接关系或学习从表图像中生成相应的标记序列来解决这个问题。

然而，它们要么依赖额外的启发式规则来恢复表结构，要么需要大量的训练数据和耗时的顺序解码器。在本文中，我们提出了另一种范式。我们将TSR建模为一个逻辑位置回归问题，并提出了一个新的TSR框架，称为LORE，即逻辑位置回归网络，该框架首次将逻辑位置回归与表单元格的空间位置回归结合在一起。我们提出的LORE在概念上更简单，更容易训练，并且比其他范式的先前TSR模型更准确。在标准基准上进行的实验表明，LORE始终优于现有技术。代码可在

https:// github.com/AlibabaResearch/AdvancedLiterateMachinery/ tree/main/DocumentUnderstanding/LORE-TSR。

LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE

如图1 (a)所示，旨在探索检测到的单元格对之间的邻接关系，以生成中间结果。它们依赖于繁琐的后处理或图优化算法来以逻辑坐标重建表格，如图1(a)所示。

另一种范式将TSR表述为标记语言序列生成问题(Zhong, ShafieiBavani, and Jimeno Yepes 2020;Desai, Kayal, and Singh 2021)，如图1 (b)所示。它简化了TSR管道，但模型应该冗余地从噪声序列标签中学习标记语法，这导致训练数据量大得多。此外，由于这些模型的解码过程是顺序的，因此耗时较长。

事实上，逻辑坐标是定义良好的表结构的机器可理解的表示，它是重建表所必需的，如图1 (c)所示。

最近，工作的重点是探索表单元格的逻辑位置。然而，该方法通过顺序分类预测逻辑位置，并且不考虑逻辑位置之间的自然依赖关系。例如，表本身的设计是从上到下，从左到右，导致单元格的逻辑位置是相互依赖的。图2概述了逻辑位置的这种性质。此外，该研究还缺乏对各种TSR范式的全面比较。

LORE: Logical Location Regression Network for Table Structure Recognition文献_深度学习_02

典型的回归假设是不同的目标是独立分布的。逻辑位置回归是存在依赖关系

针对现有方法的局限性，我们提出了逻辑位置回归网络（简称LORE），它是一种概念上更简单、更有效的TSR框架。它首先在输入图像上定位表格单元格，然后预测逻辑位置以及单元格的空间位置。为了更好地模拟逻辑位置之间的依赖关系和约束，采用了级联回归框架，并结合了单元格间和单元格内的监督。LORE的推断是一个平行的网络前向传播，无需任何复杂的后处理或顺序解码策略。

我们提出将TSR建模为逻辑位置回归问题，并设计了一个新的TSR框架LORE，该框架捕捉了单元格之间逻辑位置的依赖关系和约束，并预测了逻辑位置和空间位置。
我们通过实证证明了逻辑位置回归范式非常有效，并且涵盖了以前TSR范式的功能，例如预测邻接关系和生成标记序列。
LORE提供了一种无需干预的方法来应用有效的TSR模型，消除了设计后处理和解码策略的努力。代码可用于支持对TSR的进一步调查。

问题定义

LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_03

图3：LORE的说明。它首先通过关键点分割在输入图像中定位表格单元格，然后预测逻辑位置和空间位置。采用级联回归器和跨单元格与单元格内的监督来更好地模拟逻辑位置之间的依赖关系和约束

在本文中，我们将TSR问题视为空间和逻辑位置回归任务。具体来说，对于表格的输入图像，类似于检测器，预测一组表格单元格 $LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_04$ 作为其逻辑位置 $LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_05$ ，以及空间位置 $LORE: Logical Location Regression Network for Table Structure Recognition文献_表结构_06$ ，其中 $LORE: Logical Location Regression Network for Table Structure Recognition文献_深度学习_07$ 表示起始行、结束行、起始列和结束列， $LORE: Logical Location Regression Network for Table Structure Recognition文献_深度学习_08$ 表示第i个单元格的四个角点，N是图像中的单元格数量。

使用预测的表格单元格由其空间和逻辑位置表示，图像中的表格可以转换为机器可理解格式，例如关系数据库。此外，邻接矩阵和表格的标记序列可以通过其逻辑坐标直接派生，而不需要启发式规则（参见补充部分1）

Methodology

本节详细介绍了我们提出的LORE，这是一种TSR框架，用于回归单元格的空间和逻辑位置。如图3所示，它采用CNN主干网络从输入图像中提取表格单元格的视觉特征。然后通过两个回归头来预测单元格的空间和逻辑位置。我们特别利用级联回归器，并采用跨单元格和单元格内的监督来模拟逻辑位置之间的依赖关系和约束。以下各子部分分别介绍这些关键组件。

表单元格特征准备

为了简化空间和逻辑位置的联合预测，我们采用关键点分割网络（Zhou、Wang和Krahenb ¨ uhl，2019；Long等人，2021）作为特征提取器，并将图像中的每个表格单元格建模为其中心点。

对于宽度为W、高度为H的输入图像，该网络产生一个特征图 $LORE: Logical Location Regression Network for Table Structure Recognition文献_深度学习_09$ 和一个单元格中心热图 $LORE: Logical Location Regression Network for Table Structure Recognition文献_深度学习_10$ ，其中R和d是输出步长和隐藏大小；对应 $LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_11$ 于检测到的单元格中心，而 $LORE: Logical Location Regression Network for Table Structure Recognition文献_表结构_12$ 指代背景。

在后续的模块中，在检测到的单元格中心 $LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_13$ 处，使用CNN特征表示 $LORE: Logical Location Regression Network for Table Structure Recognition文献_表识别_14$ ，

空间位置回归

选择预测四个角点而不是矩形边界框可以更好地处理表格的倾斜和扭曲。对于空间位置，主干网络f的特征通过3×3卷积、ReLU和另一个1×1卷积得到中心 $LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_15$ 的预测 $LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_16$ ，其中 $LORE: Logical Location Regression Network for Table Structure Recognition文献_表识别_17$ 。

逻辑位置回归

由于表格单元格的逻辑位置之间存在密集的依赖关系和约束，仅从单元格中心的视觉特征中学习逻辑坐标是相当具有挑战性的。利用具有跨单元格和单元格内监督的级联回归器来明确地模拟单元格之间的逻辑关系。

基础回归器为了更好地从图像中模拟逻辑关系，首先将视觉特征与空间信息相结合。具体来说，单元格预测角点的特征被计算为其视觉特征和2维位置嵌入的总和：

$LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_18$

其中PE指的是2维位置嵌入函数(Xu等人，2020年，2021年)。然后将四个角点的特征添加到中心特征f(i)中，以增强每个预测单元格中心 $LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_19$ 的表示，如下所示：

$LORE: Logical Location Regression Network for Table Structure Recognition文献_表识别_20$

其中[w1, w2, w3, w4]为可学习参数。

然后采用消息传递和聚合网络来整合单元格视觉空间特征之间的相互作用：

$LORE: Logical Location Regression Network for Table Structure Recognition文献_表识别_21$

我们使用自我注意力机制(Vaswani等人，2017年)在LORE中避免了额外假设表格结构的分布，而不是以前的方法(Qasim、Mahmood和Shafait 2019年；Xue等人2021年)所使用的图神经网络，将在实验中进一步讨论。

基础回归器的预测然后通过一个线性层计算，该线性层使用ReLU激活函数从 $LORE: Logical Location Regression Network for Table Structure Recognition文献_表结构_22$ 得到，即： $LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_23$

堆叠回归器尽管基础回归器编码了单元格视觉空间特征之间的关系，但每个单元格的逻辑位置仍然单独预测。

**为了更好地捕捉逻辑位置之间的依赖关系和约束，**采用了一个堆叠回归器来重新查看基础回归器的预测。具体来说，将增强特征 $LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_24$ 和基础回归器的逻辑位置预测 $LORE: Logical Location Regression Network for Table Structure Recognition文献_深度学习_25$ 作为输入传递给堆叠回归器。堆叠回归器可以表示为：

$LORE: Logical Location Regression Network for Table Structure Recognition文献_深度学习_26$

其中 $LORE: Logical Location Regression Network for Table Structure Recognition文献_深度学习_27$ 是一个可学习的参数， $LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_28$ ， $LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_29$ 表示堆叠回归函数，它具有与基础回归函数相同的自注意力结构和线性结构，但具有独立的参数。堆叠回归器的输出 $LORE: Logical Location Regression Network for Table Structure Recognition文献_深度学习_30$

在推理阶段，将 $LORE: Logical Location Regression Network for Table Structure Recognition文献_表识别_31$ 的四个分量分配给最近的整数即可得到结果。

单元格内单元格间为了使逻辑位置回归器更好地理解逻辑位置之间的依赖关系和约束，我们提出了单元格间和单元格内监督，总结如下：1）不同单元格的逻辑位置应该是互斥的（单元格间）。2）一个表格单元格的逻辑位置应该与其跨越范围一致（单元格内）。

实际上，相隔很远的单元格的预测很少相互矛盾，因此我们仅对相邻对进行采样以进行单元格间监督。更正式地说，单元格间和单元格内损失的方案可以表示为：

$LORE: Logical Location Regression Network for Table Structure Recognition文献_表结构_32$

其中 $LORE: Logical Location Regression Network for Table Structure Recognition文献_表识别_33$ 是水平（垂直）相邻对的集合，即对于一对单元格 $LORE: Logical Location Regression Network for Table Structure Recognition文献_深度学习_34$ ，单元格 $LORE: Logical Location Regression Network for Table Structure Recognition文献_深度学习_35$ 在同一行（列）中与单元格j相邻且在单元格j的右侧（下方），并且 $LORE: Logical Location Regression Network for Table Structure Recognition文献_LORE_36$ 是单元格i和单元格j的预测逻辑索引。

对于单元格间的损失，我们只考虑相邻单元格的逻辑位置。如果两个单元格的逻辑位置相互冲突（例如，一个单元格的顶部边界与另一个单元格的底部边界重合），则对损失进行惩罚。否则，损失为零。
对于单元格内的损失，我们考虑一个单元格内的所有点。如果一个单元格内的任何点的逻辑位置与其跨越范围不一致（例如，一个点位于一个单元格的顶部边界上，但该点的逻辑位置指示它应该位于另一个单元格内），则对损失进行惩罚。否则，损失为零。

$LORE: Logical Location Regression Network for Table Structure Recognition文献_表识别_37$