增值税票据表格分割识别

转载

datayx 2024-08-01 15:38:48

文章标签 人工智能深度学习特征工程卷积核 文章分类 Python 后端开发

在许多业务场景中，如财务会计、发票管理和报销流程等，准确地分割和识别票据表格中的信息是必要的任务。它能够为各种业务场景提供科学工具和决策支持，提高票据处理的效率和准确性，推动自动化文档识别和数据智能化的发展与应用。

实现技术思路

一、算法理论基础

1.1 卷积神经网络

深度学习指从有限样例中，通过算法总结出一般规律，并可以应用到新的未知数据上，可供学习的数据越多，其效果越好。从根源来讲，深度学习是机器学习的一个分支。卷积核的数量和卷积层的数量都对卷积神经网络的性能和拟合能力产生影响。适当增加卷积核的数量和卷积层的数量可以提高网络的表达能力和学习能力，但过多的卷积核和层数可能导致噪声和冗余。因此，在设计和改进神经网络模型时，需要在广度和深度方面进行权衡和调整，以达到更好的性能和鲁棒性。

增值税票据表格分割识别_卷积核

卷积核的数量决定了网络能够提取多少种特征图。较多的卷积核可以捕捉更多的图像特征，每个卷积核对应一种特征。适当增加卷积核的数量可以提高网络的表达能力。然而，当卷积核的数量过多时，可能会引入噪声或冗余信息，影响网络的性能。卷积层的数量决定了网络的深度，即网络的层数。较深的网络可以通过堆叠多层特征提取器来丰富网络的表达能力。低层卷积层主要提取局部细节特征，高层卷积层则能够提取更抽象的全局特征。增加网络的深度可以提高网络的非线性表示能力，提高对复杂模式的学习能力。

增值税票据表格分割识别_深度学习_02

1.3 EM算法

EM算法（Expectation-Maximization Algorithm）是一种迭代算法，用于估计含有潜在变量的概率模型的参数。给定观测数据Y，其概率分布为P(Y|θ)，其中θ是需要估计的模型参数。EM算法的目标是通过极大化不完全数据Y关于参数θ的对数似然函数的下界来逼近极大化完全数据对数似然函数的最大似然估计。

具体步骤如下：

初始化模型参数θ的初值。
E步（Expectation Step）：计算完全数据的期望对数似然函数的期望，即计算潜在变量的条件概率分布。
M步（Maximization Step）：针对给定的潜在变量的条件概率分布，最大化完全数据的对数似然函数关于参数θ的期望。
重复执行E步和M步，直到收敛，得到模型的最大似然估计或近似最大似然估计。

相关代码示例：

增值税票据表格分割识别_卷积核_03

EM算法的核心思想是通过迭代求解下界来逼近极大化完全数据对数似然函数的最大似然估计。由于EM算法涉及到对不完全数据的期望和对完全数据的最大化，它可以克服含有潜在变量的概率模型参数估计中的困难。

增值税票据表格分割识别_深度学习_04

EM算法是一种用于含有潜在变量的概率模型参数估计的迭代算法，通过迭代求解下界来逼近极大化完全数据对数似然函数的最大似然估计。它能够解决模型含有潜在变量时无法直接使用传统估计方法的问题，并在多峰数据建模中具有一定的应用价值。然而，EM算法只能保证局部最优解，对于全局最优解没有保证。

增值税票据表格分割识别_特征工程_05

相关代码示例：

增值税票据表格分割识别_卷积核_06

二、实验及结果分析

2.1 数据处理

收集大量的票据图像数据，包括各种类型的票据，例如发票、收据、订单等。可以通过网络爬虫、合作伙伴提供的数据或者自行采集等方式获取。确保数据集的多样性，涵盖不同票据样式、字体、背景和布局等方面的变化。这样能够帮助系统更好地适应各种实际场景。根据需要，进行数据标注，包括整体图像的标注和表格区域的标注。表格区域的标注可以使用矩形框或多边形来表示。

增值税票据表格分割识别_人工智能_07

在数据预处理阶段，要对图像进行清洗、调整大小、灰度化和增强等处理，以提高图像质量和可分辨性。这样的数据准备工作为后续的表格检测、文本识别和模型训练提供了高质量、多样性的数据基础。

相关代码示例：

增值税票据表格分割识别_人工智能_08

2.2 模型训练

通过实验和算法的组合，包括标准化处理、JDM网络和CPD算法，可以在合成表格数据集上实现高准确率和召回率的交叉点检测，并且能够实现高精度的表格分割。

增值税票据表格分割识别_特征工程_09

相关代码示例：

增值税票据表格分割识别_深度学习_10

增值税票据表格分割识别_特征工程_11

在进行点集匹配之前，首先对两个点集进行标准化处理。经过实验测试发现，经过标准化处理后的点集在面对旋转和点缺失等问题时能够获得更好的匹配效果。本次实验中采用了JDM网络提取交叉点时具有较高召回率和准确率的特点，以及CPD算法在处理点缺失和点冗余时表现良好。在测试集中，交叉点的匹配正确率达到了100%，即所有票据中的点都能够找到与之对应的模板中的点。

增值税票据表格分割识别_卷积核_12

测试集上，如果严格采用四个顶点表示单元格，则表格分割准确率为97.4%。如果认为对角线上的两个点也能表示单元格，则表格分割准确率可达到98.6%。第一列是增值税发票的分割结果，第二列是购车发票的分割结果，第三列是税收完税证明的分割结果。使用四个顶点分割出的单元格标出了两条对角线，而使用两个点分割出的单元格只标出了一条对角线，对于未分割出的单元格则没有标示。

增值税票据表格分割识别_人工智能_13