python输入记账凭证程序 python在自动录入会计凭证

转载

冷月星 2024-04-19 13:03:49

文章标签 python输入记账凭证程序 host 防止自动跳转 json 百度阅读器 文章分类 Python 后端开发

python输入记账凭证程序 python在自动录入会计凭证_python输入记账凭证程序

继续电子发票台账的自动化，在上一篇 kin toms：Python办公自动化—电子发票台账制作自动化（2），我们已经识别了单张电子发票图片，将其中的详细信息整理到了excel表中，并为该条记录设置了超链接，点击链接就能跳转至原始文件。今天我们尝试增加如下功能

批量处理某文件夹及其子文件夹中所有发票文件
将PDF文件自动转成图片，然后提交识别，将明细数据保存至excel表
判断本次处理的发票是否有重复并在台账中标注

实现代码

思路：在上次代码的基础上，增加批量文件处理及PDF转图片的模块

代码如下：

import fitz
import os
import urllib
import base64
import json
import urllib.parse
import urllib.request
import openpyxl
import time
from PIL import ImageGrab
from PIL import Image

# 创建excel文件并简单设置格式用以保存发票数据用
wb = openpyxl.Workbook()
ws = wb.active
ws.title = '台帐'
ws.views.sheetView[0].showGridLines = False
ws.views.sheetView[0].zoomScale = 80
fill = openpyxl.styles.PatternFill("solid", fgColor="00FFFF")
fill_du = openpyxl.styles.PatternFill("solid", fgColor="FFFFE0")
list1 = ['序号', '发票种类', '发票代码', '发票号码', '开票日期', '校验码', '货物名称', '不含税金额', '税额', '价税合计(小写)',
         '销售方名称', '购方名称', '购方纳税人识别号', '文件链接(点击跳转至文件)', '重复判定', '文件名确认']
for m in range(len(list1)):
    ws.cell(1, m + 1).value = list1[m]
    ws.cell(1, m + 1).fill = fill
ws1 = wb.create_sheet('未识别')  # 未识别sheet虽然已创建，但暂未设置写入数据代码，待完善

# 待处理发票所在目录，可根据实际情况自行修改
oldpath = ".20201212"
if not os.path.exists(oldpath):
    os.makedirs(oldpath)  # 创建目录或文件夹
    print(f"您还没有目录{oldpath},刚才已自动为您创建完毕,n请将待处理电子发票文件或文件夹存入该目录下并重新运行程序。")
    exit()

files = []
for file in os.walk(oldpath):
    for f in file[2]:
        path = os.path.join(file[0], f)
        if os.path.isfile(path) and os.path.splitext(path)[1] == '.pdf' or os.path.isfile(path) and 
                os.path.splitext(path)[1] == '.ofd':
            files.append(path)
print("总计有" + str(len(files)) + '个pdf和ofd文件')

if len(files) < 1:
    print('文件夹中没有可识别的pdf或ofd文件,请检查后重新执行程序')
    exit()

# client_id 为官网获取的AK， client_secret 为官网获取的SK
# 百度AI账号获取地址 https://ai.baidu.com/tech/ocr_receipts/vat_invoice
client_id = '这里替换为你的百度AK'
client_secret = '这里替换为你的百度SK'


# 获取token
def get_token():
    host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=' + client_id + '&client_secret=' + client_secret
    request = urllib.request.Request(host)
    request.add_header('Content-Type', 'application/json; charset=UTF-8')
    response = urllib.request.urlopen(request)
    token_content = response.read()
    if token_content:
        token_info = json.loads(token_content)
        token_key = token_info['access_token']
    return token_key


def vat_invoice(filename):
    request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/vat_invoice"
    f = open(filename, 'rb')
    img = base64.b64encode(f.read())
    params = dict()
    params['image'] = img
    params['show'] = 'true'
    params = urllib.parse.urlencode(params).encode("utf-8")
    access_token = get_token()
    request_url = request_url + "?access_token=" + access_token
    request = urllib.request.Request(url=request_url, data=params)
    request.add_header('Content-Type', 'application/x-www-form-urlencoded')
    response = urllib.request.urlopen(request)
    content = response.read()
    if content:
        content = content.decode('utf-8')
        data = json.loads(content)
        words_result = data['words_result']
        text = words_result
        list2 = [text['InvoiceType'], text['InvoiceCode'], text['InvoiceNum'],
                 text['InvoiceDate'], text['CheckCode'], text['CommodityName'][0]['word'],
                 text['TotalAmount'], text['TotalTax'], text['AmountInFiguers'],
                 text['SellerName'], text['PurchaserName'], text['PurchaserRegisterNum']]
        for n in range(len(list2)):
            ws.cell(irow, n + 2).value = list2[n]
        ws.cell(irow, 1).value = irow - 1
        ws.cell(irow, len(list2) + 2).hyperlink = link
        ws.cell(irow, len(list2) + 2).value = linkText
    time.sleep(0.5)
    print('解析完毕: ' + fname)


a = 0
irow = 2
for file in files:
    fname = files[a]
    link = os.path.abspath(file)
    linkText = os.path.basename(file)
    if fname[-4:] == '.pdf':
        pdf = fitz.open(file)
        for pg in range(pdf.pageCount):
            page = pdf[pg]
            rotate = int(0)
            zoom_x = 2.0
            zoom_y = 2.0
            trans = fitz.Matrix(zoom_x, zoom_y).preRotate(rotate)
            pm = page.getPixmap(matrix=trans, alpha=False)
            image = fname[0:-4] + '.png'
            pm.writePNG(image)
            try:
                vat_invoice(image)
                os.remove(image)  # 删除作业过程中产生的png文件
            except:
                os.remove(image)  # 删除作业过程中产生的png文件
                continue
    # 下面else段执行如下内容：如果文件为ofd格式，则用国税局OFD阅读器打开文件，截图，然后提交识别发票内容。
    # 前提是先装国税局ODF阅读器并设置为OFD打开默认软件，然后设置显示比例固定为单屏可显示，以便能截取发票全图
    # 如您的电子发文件没有OFD，可将下一行else至往下18行continue之间得内容删除，防止错误和不必要的麻烦。
    # 本例是用截图的变通方法，其实OFD文件可以直接解压后用xml解析，目前学习中，后续完成时再更新
    else:
        # os.system('start "C:Program Files (x86)gjswzjReader_ProgjswzjReader.exe" "test.ofd"')  # 指定程序打开ofd文件
        os.system(f"start explorer {file}")  ## 用默认的程序打开ofd文件
        # 注意阅读器无调整页面大小的快捷键，需要先设置好尽量让显示区域变大，以便确保ocr识别精度
        time.sleep(2)  # 至少让文件显示在屏幕上才可，具体时长视电脑性能缩短或增加
        bbox = (372, 123, 1583, 934)  # 截图左上角的xy坐标，右下角的xy坐标，这个每人显示器不同，需要自己用搜狗输入法或者微信截图看看，涵盖发票内容即可
        im = ImageGrab.grab(bbox)
        pic = im.transpose(Image.ROTATE_90)
        image = fname[0:-4] + '.png'
        pic.save(image)
        os.system('taskkill /f /im gjswzjReader.exe')
        try:
            vat_invoice(image)
            os.remove(image)
        except:
            os.remove(image)
            continue
    # 如您没有ofd文件，请运行前先删除上方至else的18行内容，防止不必要的发麻烦

    irow = irow + 1
    a = a + 1

print('共计发现：' + str(len(files)) + '个文件，处理了' + str(a) + '个')

columns1 = ['B', 'C', 'E', 'P']
columns2 = ['K', 'L']
columns3 = ['F', 'G', 'M', 'O']
ws.column_dimensions['A'].width = 4.5
ws.column_dimensions['N'].width = 50
for column1 in columns1:
    ws.column_dimensions[column1].width = 14
for column2 in columns2:
    ws.column_dimensions[column2].width = 27
for column3 in columns3:
    ws.column_dimensions[column3].width = 19

# 判断重复票
mylist = []
irow = ws.max_row
for row in range(2, irow + 1):
    try:
        code1 = ws.cell(row, 3).value + ws.cell(row, 4).value
    except:
        code1 = ''
    mylist.append(code1)
dub = {}
for code in mylist:
    if mylist.count(code) > 1:
        dub[code] = mylist.count(code)
for r in range(2, irow + 1):
    try:
        code2 = ws.cell(r, 3).value + ws.cell(r, 4).value
    except:
        code2 = ''
    ws.cell(r, 15).value = dub.get(code2)
    if ws.cell(r, 15).value != None:
        ws.cell(r, 15).fill = fill_du  # 设置重复内容浅黄色标注
        ws.cell(r, 14).fill = fill_du  # 设置重复内容浅黄色标注

ws.auto_filter.ref = 'A1:P' + str(irow)
t = time.strftime('%Y%m%d%H%M%S', time.localtime(time.time()))
wb.save(f'{t}-电子发票管理台账.xlsx')

备注：受能力所限，新增代码有部分是搜罗来组装起来的，代码用法及格式规范性和专业人员比差很多，但能用，有python环境，能联网，装上必备得第三方库，申请个百度AI账号（参考上一篇）即可用。