04-读取Word文档内容

原创

AI悦创 2021-06-09 19:12:09 ©著作权

文章标签 Python 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者AI悦创的原创作品，请联系作者获取转载授权，否则将追究法律责任

1. 读取 docx 所需库

自动生成《背影》word 文档，以及自动生成日期的脚本代码已经完成。

本节的主要内容，是自动的读取 word 文档的内容，将 word 中的表格、段落文字，以及图片全部读取出来。

这里需要用到的库，是前面用到的 python-docx 库，以及额外的一个 docx2python。

安装命令：

pip install python-docx docx2python

2. 段落的输出

安装好之后，先使用 python-docx 库，读取 word 文件的段落内容，如下代码：

from docx import Document

document = Document('背影-read.docx')
for paragraph in document.paragraphs:
	print(paragraph.text)

这段代码，就是针对 document 文档的段落进行并输出，就是文档的全部文字内容，没有任何的格式。
输出内容如下：

背影我与父亲不相见已二年余了，我最不能忘记的是他的背影。那年冬天，祖母死了，父亲的差使也交卸了，正是祸不单行的日子。我从北京到徐州，打算跟着父亲奔丧回家。到徐州见着父亲，看见满院狼藉的东西，又想起祖母，不禁簌簌地流下眼泪。父亲说：“事已如此，不必难过，好在天无绝人之路！”回家变卖典质，父亲还了亏空；又借钱办了丧事。这些日子，家中光景很是惨澹，一半为了丧事，一半为了父亲赋闲。丧事完毕，父亲要到南京谋事，我也要回北京念书，我们便同行。到南京时，有朋友约去游逛，逗留了一日；第二日上午便须渡江到浦口，下午上车北去。父亲因为事忙，本已说定不送我，叫旅馆里一个熟识的茶房陪我同去。他再三嘱咐茶房，甚是仔细。但他终于不放心，怕茶房不妥帖；颇踌躇了一会。其实我那年已二十岁，北京已来往过两三次，是没有什么要紧的了。他踌躇了一会，终于决定还是自己送我去。我再三劝他不必去；他只说：“不要紧，他们去不好！”我们过了江，进了车站。我买票，他忙着照看行李。行李太多，得向脚夫行些小费才可过去。他便又忙着和他们讲价钱。我那时真是聪明过分，总觉他说话不大漂亮，非自己插嘴不可，但他终于讲定了价钱；就送我上车。他给我拣定了靠车门的一张椅子；我将他给我做的紫毛大衣铺好座位。他嘱我路上小心，夜里要警醒些，不要受凉。又嘱托茶房好好照应我。我心里暗笑他的迂；他们只认得钱，托他们只是白托！而且我这样大年纪的人，难道还不能料理自己么？我现在想想，我那时真是太聪明了。我说道：“爸爸，你走吧。”他望车外看了看，说：“我买几个橘子去。你就在此地，不要走动。”我看那边月台的栅栏外有几个卖东西的等着顾客。走到那边月台，须穿过铁道，须跳下去又爬上去。父亲是一个胖子，走过去自然要费事些。我本来要去的，他不肯，只好让他去。我看见他戴着黑布小帽，穿着黑布大马褂，深青布棉袍，蹒跚地走到铁道边，慢慢探身下去，尚不大难。可是他穿过铁道，要爬上那边月台，就不容易了。他用两手攀着上面，两脚再向上缩；他肥胖的身子向左微倾，显出努力的样子。这时我看见他的背影，我的泪很快地流下来了。我赶紧拭干了泪。怕他看见，也怕别人看见。我再向外看时，他已抱了朱红的橘子往回走了。过铁道时，他先将橘子散放在地上，自己慢慢爬下，再抱起橘子走。到这边时，我赶紧去搀他。他和我走到车上，将橘子一股脑儿放在我的皮大衣上。于是扑扑衣上的泥土，心里很轻松似的。过一会儿说：“我走了，到那边来信！”我望着他走出去。他走了几步，回过头看见我，说：“进去吧，里边没人。”等他的背影混入来来往往的人里，再找不着了，我便进来坐下，我的眼泪又来了。近几年来，父亲和我都是东奔西走，家中光景是一日不如一日。他少年出外谋生，独力支持，做了许多大事。哪知老境却如此颓唐！他触目伤怀，自然情不能自已。情郁于中，自然要发之于外；家庭琐屑便往往触他之怒。他待我渐渐不同往日。但最近两年不见，他终于忘却我的不好，只是惦记着我，惦记着他的儿子。我北来后，他写了一信给我，信中说道：“我身体平安，惟膀子疼痛厉害，举箸提笔，诸多不便，大约大去之期不远矣。”我读到此处，在晶莹的泪光中，又看见那肥胖的、青布棉袍黑布马褂的背影。唉！我不知何时再能与他相见！此文档生成于 2019年12月13日朱自清信息表格

3. 表格的输出

然后是表格的输出，如下代码：

tables = document.tables
for table in tables:
	rows = table.rows
	for i in range(0, len(rows)):
		for cell in table.row_cells(i):
			print(cell.text, end='  ')
		print('\n')

详细的代码介绍：

document.tables 是获取文档的全部表格，然后进入第一个 for 循环，逐个表格取出并处理
table.rows 是获取行对象，使用len()函数，就可以取到行数
然后循环，从 0 取到最后一行
使用 table.row_cells(i) 获取当前行的所有 cell 单元格，使用 for 循环获取每个 cell
然后输出所有 cell 单元格的文本内容，并且换行是空字符串，这是为了将每行的内容，输出时也是一样
然后在一行输出结束时，加换行，将每行内容都分开

以上是表格的代码部分，如下输出结果：
04-读取Word文档内容_Python

4. 图片的获取和保存

最后一个是读取图片，由于在命令行中，无法输出图片，所以这里的操作，是将所有的图片保存到word文档旁边，如下代码：

from docx2python import docx2python

document2 = docx2python('背影-read.docx')
for name, imageData in document2.images.items():
	with open(name, 'wb') as fp:
		fp.write(imageData)

这里使用的是 docx2python 库，这个属于一个 docx 的拓展库。

打开文件，读取文档的全部图片名和字节，然后保存即可，如下效果：
04-读取Word文档内容_Python_02 image1.jpg 就是从 docx 中读取出来的图片文件。
背景-read.docx 是目标文档。
读取word文档内容.ipynb 是课程源码，启动 jupyter 即可查看源码并运行。