python输入记账凭证程序 python在自动录入会计凭证_python输入记账凭证程序


继续电子发票台账的自动化,在上一篇 kin toms:Python办公自动化—电子发票台账制作自动化(2) ,我们已经识别了单张电子发票图片,将其中的详细信息整理到了excel表中,并为该条记录设置了超链接,点击链接就能跳转至原始文件。今天我们尝试增加如下功能

  1. 批量处理某文件夹及其子文件夹中所有发票文件
  2. 将PDF文件自动转成图片,然后提交识别,将明细数据保存至excel表
  3. 判断本次处理的发票是否有重复并在台账中标注

实现代码

思路:在上次代码的基础上,增加批量文件处理及PDF转图片的模块

代码如下:


import fitz
import os
import urllib
import base64
import json
import urllib.parse
import urllib.request
import openpyxl
import time
from PIL import ImageGrab
from PIL import Image

# 创建excel文件并简单设置格式用以保存发票数据用
wb = openpyxl.Workbook()
ws = wb.active
ws.title = '台帐'
ws.views.sheetView[0].showGridLines = False
ws.views.sheetView[0].zoomScale = 80
fill = openpyxl.styles.PatternFill("solid", fgColor="00FFFF")
fill_du = openpyxl.styles.PatternFill("solid", fgColor="FFFFE0")
list1 = ['序号', '发票种类', '发票代码', '发票号码', '开票日期', '校验码', '货物名称', '不含税金额', '税额', '价税合计(小写)',
         '销售方名称', '购方名称', '购方纳税人识别号', '文件链接(点击跳转至文件)', '重复判定', '文件名确认']
for m in range(len(list1)):
    ws.cell(1, m + 1).value = list1[m]
    ws.cell(1, m + 1).fill = fill
ws1 = wb.create_sheet('未识别')  # 未识别sheet虽然已创建,但暂未设置写入数据代码,待完善

# 待处理发票所在目录,可根据实际情况自行修改
oldpath = ".20201212"
if not os.path.exists(oldpath):
    os.makedirs(oldpath)  # 创建目录或文件夹
    print(f"您还没有目录{oldpath},刚才已自动为您创建完毕,n请将待处理电子发票文件或文件夹存入该目录下并重新运行程序。")
    exit()

files = []
for file in os.walk(oldpath):
    for f in file[2]:
        path = os.path.join(file[0], f)
        if os.path.isfile(path) and os.path.splitext(path)[1] == '.pdf' or os.path.isfile(path) and 
                os.path.splitext(path)[1] == '.ofd':
            files.append(path)
print("总计有" + str(len(files)) + '个pdf和ofd文件')

if len(files) < 1:
    print('文件夹中没有可识别的pdf或ofd文件,请检查后重新执行程序')
    exit()

# client_id 为官网获取的AK, client_secret 为官网获取的SK
# 百度AI账号获取地址 https://ai.baidu.com/tech/ocr_receipts/vat_invoice
client_id = '这里替换为你的百度AK'
client_secret = '这里替换为你的百度SK'


# 获取token
def get_token():
    host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=' + client_id + '&client_secret=' + client_secret
    request = urllib.request.Request(host)
    request.add_header('Content-Type', 'application/json; charset=UTF-8')
    response = urllib.request.urlopen(request)
    token_content = response.read()
    if token_content:
        token_info = json.loads(token_content)
        token_key = token_info['access_token']
    return token_key


def vat_invoice(filename):
    request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/vat_invoice"
    f = open(filename, 'rb')
    img = base64.b64encode(f.read())
    params = dict()
    params['image'] = img
    params['show'] = 'true'
    params = urllib.parse.urlencode(params).encode("utf-8")
    access_token = get_token()
    request_url = request_url + "?access_token=" + access_token
    request = urllib.request.Request(url=request_url, data=params)
    request.add_header('Content-Type', 'application/x-www-form-urlencoded')
    response = urllib.request.urlopen(request)
    content = response.read()
    if content:
        content = content.decode('utf-8')
        data = json.loads(content)
        words_result = data['words_result']
        text = words_result
        list2 = [text['InvoiceType'], text['InvoiceCode'], text['InvoiceNum'],
                 text['InvoiceDate'], text['CheckCode'], text['CommodityName'][0]['word'],
                 text['TotalAmount'], text['TotalTax'], text['AmountInFiguers'],
                 text['SellerName'], text['PurchaserName'], text['PurchaserRegisterNum']]
        for n in range(len(list2)):
            ws.cell(irow, n + 2).value = list2[n]
        ws.cell(irow, 1).value = irow - 1
        ws.cell(irow, len(list2) + 2).hyperlink = link
        ws.cell(irow, len(list2) + 2).value = linkText
    time.sleep(0.5)
    print('解析完毕: ' + fname)


a = 0
irow = 2
for file in files:
    fname = files[a]
    link = os.path.abspath(file)
    linkText = os.path.basename(file)
    if fname[-4:] == '.pdf':
        pdf = fitz.open(file)
        for pg in range(pdf.pageCount):
            page = pdf[pg]
            rotate = int(0)
            zoom_x = 2.0
            zoom_y = 2.0
            trans = fitz.Matrix(zoom_x, zoom_y).preRotate(rotate)
            pm = page.getPixmap(matrix=trans, alpha=False)
            image = fname[0:-4] + '.png'
            pm.writePNG(image)
            try:
                vat_invoice(image)
                os.remove(image)  # 删除作业过程中产生的png文件
            except:
                os.remove(image)  # 删除作业过程中产生的png文件
                continue
    # 下面else段执行如下内容:如果文件为ofd格式,则用国税局OFD阅读器打开文件,截图,然后提交识别发票内容。
    # 前提是先装国税局ODF阅读器并设置为OFD打开默认软件,然后设置显示比例固定为单屏可显示,以便能截取发票全图
    # 如您的电子发文件没有OFD,可将下一行else至往下18行continue之间得内容删除,防止错误和不必要的麻烦。
    # 本例是用截图的变通方法,其实OFD文件可以直接解压后用xml解析,目前学习中,后续完成时再更新
    else:
        # os.system('start "C:Program Files (x86)gjswzjReader_ProgjswzjReader.exe" "test.ofd"')  # 指定程序打开ofd文件
        os.system(f"start explorer {file}")  ## 用默认的程序打开ofd文件
        # 注意阅读器无调整页面大小的快捷键,需要先设置好尽量让显示区域变大,以便确保ocr识别精度
        time.sleep(2)  # 至少让文件显示在屏幕上才可,具体时长视电脑性能缩短或增加
        bbox = (372, 123, 1583, 934)  # 截图左上角的xy坐标,右下角的xy坐标,这个每人显示器不同,需要自己用搜狗输入法或者微信截图看看,涵盖发票内容即可
        im = ImageGrab.grab(bbox)
        pic = im.transpose(Image.ROTATE_90)
        image = fname[0:-4] + '.png'
        pic.save(image)
        os.system('taskkill /f /im gjswzjReader.exe')
        try:
            vat_invoice(image)
            os.remove(image)
        except:
            os.remove(image)
            continue
    # 如您没有ofd文件,请运行前先删除上方至else的18行内容,防止不必要的发麻烦

    irow = irow + 1
    a = a + 1

print('共计发现:' + str(len(files)) + '个文件,处理了' + str(a) + '个')

columns1 = ['B', 'C', 'E', 'P']
columns2 = ['K', 'L']
columns3 = ['F', 'G', 'M', 'O']
ws.column_dimensions['A'].width = 4.5
ws.column_dimensions['N'].width = 50
for column1 in columns1:
    ws.column_dimensions[column1].width = 14
for column2 in columns2:
    ws.column_dimensions[column2].width = 27
for column3 in columns3:
    ws.column_dimensions[column3].width = 19

# 判断重复票
mylist = []
irow = ws.max_row
for row in range(2, irow + 1):
    try:
        code1 = ws.cell(row, 3).value + ws.cell(row, 4).value
    except:
        code1 = ''
    mylist.append(code1)
dub = {}
for code in mylist:
    if mylist.count(code) > 1:
        dub[code] = mylist.count(code)
for r in range(2, irow + 1):
    try:
        code2 = ws.cell(r, 3).value + ws.cell(r, 4).value
    except:
        code2 = ''
    ws.cell(r, 15).value = dub.get(code2)
    if ws.cell(r, 15).value != None:
        ws.cell(r, 15).fill = fill_du  # 设置重复内容浅黄色标注
        ws.cell(r, 14).fill = fill_du  # 设置重复内容浅黄色标注

ws.auto_filter.ref = 'A1:P' + str(irow)
t = time.strftime('%Y%m%d%H%M%S', time.localtime(time.time()))
wb.save(f'{t}-电子发票管理台账.xlsx')


备注:受能力所限,新增代码有部分是搜罗来组装起来的,代码用法及格式规范性和专业人员比差很多,但能用,有python环境,能联网,装上必备得第三方库,申请个百度AI账号(参考上一篇) 即可用。

运行结果


python输入记账凭证程序 python在自动录入会计凭证_json_02

自动整理后的发票清单,每行一张发票


本篇结语

本篇我们实现了如下功能

  1. 批量处理某文件夹及其子文件夹中所有发票文件
  2. 将PDF连同OFD文件自动转成图片,然后提交识别,将明细数据保存至excel表
  3. 判断本次处理的发票是否有重复并在台账中标注

需要继续改进的地方

  • OFD格式的XML解析方法
  • 跳过未处理的文件列出清单
  • 除了本次识别项目判断重复外,还需判断与此前识别的票据是否有重复(Excel和Python各有所长,这个功能计划还是用Vba合并各次识别台账后处理了)