python 获取目录结构 python获取word目录

转载

clghxq 2023-08-23 16:23:47

文章标签 python 获取目录结构 python 自动编号 xml文件 文章分类 Python 后端开发

刚毕业的小菜鸡，第一次写文章，如果有写的不好的地方请谅解。

1.word文档分析

2.python-docx获取word中的自动编号

3.尚未解决的问题

1.word文档分析

word文档是一种压缩包，将后缀名改为zip之后，"word"文件夹里有一个document.xml和numbering.xml，一个放word文档中的文本，一个放word文档中的自动编号。

python 获取目录结构 python获取word目录_python

python 获取目录结构 python获取word目录_xml文件_02

python 获取目录结构 python获取word目录_python_03

每一个段落都有一个numbId和ilvl

python 获取目录结构 python获取word目录_xml文件_04

再来看numbering.xml文件，这个文件出去开头的引用东西，文件中部列举了不同的abstractNumId对应的编号的类型，文件的最下部写了numId和abstractNumId的对应关系。

python 获取目录结构 python获取word目录_自动编号_05

python 获取目录结构 python获取word目录_xml文件_06

python 获取目录结构 python获取word目录_自动编号_07

numId和ilvl，每个numId对应一个abstractNumId，每个abstractNumId对应一组格式，这个格式是个序列通过ilvl的值作为索引。document.xml文件中需要的标签的作用：

<w:ilvl w:val="0"/>：用来确定是同个abstractNumId的不同格式

<w:numId w:val="1"/>:每个numId对应一个abstractNumId，一种自动编号用两次就会生成两个numId，两个abstracNumId。如一、......二、......，此时这两段标题的numId是一样的。如一、......一、......，此时这两段的numId是不同的，相应的会对应两个不同的abstractNumId。不带自动编号的段落的numId为0，且没有对应的abstractNumId

numbering.xml文件中的需要的标签的作用:

<w:abstractNum w:abstractNumId="17">：对应一组格式

<w:lvl w:ilvl="0" w:tentative="0">：对应这一组格式中的一种格式

<w:start w:val="1"/>：表示这种格式从几开始，如为1时，一、，为二时，二、。这个值只是表示这种格式时从几开始自动编号，不是表示编号的顺序。

<w:numFmt w:val="decimal"/>：表示这种格式是什么类型的

<w:lvlText w:val="%1、"/>：表示这种格式的样式。

简单叙述一下word怎么实现自动编号的，带编号的段落在document.xml生成一个numId和ilvl，每个numId对应一个abstractNumId，每个abstractNumId有一组格式序列，每个ilvl对应改组格式序列的一种格式。每个格式有start确定起始编号，numFmt确定格式类型，lvlText确定格式样式。通过numFmt和lvlText的组合确定自动编号的最终的样式。

2.python-docx获取word中的自动编号

了解word的文件构成之后，利用python-docx获取上述的信息。

安装命令： pip install python-docx

from docx import Document


d = Document('标题.docx')


for p in d.paragraphs: # 获取每个段落
    # 获取numId
    print('numId', p._element.pPr.numPr.numId.val, end='  ')
    # 获取ilvl的值，注意纯文本段落没有ilvl，其ilvl是None
    try:
        print('ilvl', p._element.pPr.numPr.ilvl.val, end='  ')
    except AttributeError:
        print('ilvl', p._element.pPr.numPr.ilvl, end='  ')
    # 获取每个段落的文本信息
    print('text', p.text)

# 获取numbering.xml文件中的信息
ct_numbering = d.part.numbering_part._element
numXML = d.part.numbering_part.numbering_definitions._numbering

for num in ct_numbering.num_lst:
    # 获取numId和abstractNmuId的对应关系
    print('numId:', num.numId, end='  ')
    print('abstractId:', num.abstractNumId.val)

for i in numXML.abstractNum_lst:
    # 获取每个abstractNumId里面的每个ilvl里的lvlText，numFmt，start
    for j in i.lvl_lst:
        print('lvlText:', j.lvlText_lst[0].val, end='  ')
        print('start:', j.start_lst[0].val, end='  ')
        print('numFmt:', j.numFmt_lst[0].val)

word内容

python 获取目录结构 python获取word目录_自动编号_08

代码运行结果：

python 获取目录结构 python获取word目录_自动编号_09

3.尚未解决的问题

（1）、单级编号的顺序没办法直接确定

同一个标号的不同顺序的numId相同，ilvl值相同。如一、......二、......，其中段落一、......和段落二、......的numId和ilvl值相同，意味着abstractNumId、start、numFmt、lvlText都相同。所以如何解决标号的顺序，目前我没有发现可以直接获取到顺序的方法。

但是可以通过计算相同numId的出现次数来确定顺序。

（2）、多级编号的顺序没办法直接确定，计数的也行不通

“1.，1.1，1.2，2.，2.1，2.2”这类的多级编号，这几个段落的numId全部相同，其中1.，2.的ilvl值相同，1.1，1.2，2.1，2.2的ilvl值相同。

对于这两个问题请能够解决的大佬给予指导。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。