1. 读取 docx 所需库

自动生成《背影》word 文档,以及自动生成日期的脚本代码已经完成。

本节的主要内容,是自动的读取 word 文档的内容,将 word 中的表格、段落文字,以及图片全部读取出来。

这里需要用到的库,是前面用到的 python-docx 库,以及额外的一个 docx2python。

安装命令:

pip install python-docx docx2python
2. 段落的输出

安装好之后,先使用 python-docx 库,读取 word 文件的段落内容,如下代码:

from docx import Document

document = Document('背影-read.docx')
for paragraph in document.paragraphs:
	print(paragraph.text)

这段代码,就是针对 document 文档的段落进行并输出,就是文档的全部文字内容,没有任何的格式。
输出内容如下:

背影我与父亲不相见已二年余了,我最不能忘记的是他的背影。那年冬天,祖母死了,父亲的差使也交卸了,正是祸不单行的日子。我从北京到徐州,打算跟着父亲奔丧回家。到徐州见着父亲,看见满院狼藉的东西,又想起祖母,不禁簌簌地流下眼泪。父亲说:“事已如此,不必难过,好在天无绝人之路!”回家变卖典质,父亲还了亏空;又借钱办了丧事。这些日子,家中光景很是惨澹,一半为了丧事,一半为了父亲赋闲。丧事完毕,父亲要到南京谋事,我也要回北京念书,我们便同行。到南京时,有朋友约去游逛,逗留了一日;第二日上午便须渡江到浦口,下午上车北去。父亲因为事忙,本已说定不送我,叫旅馆里一个熟识的茶房陪我同去。他再三嘱咐茶房,甚是仔细。但他终于不放心,怕茶房不妥帖;颇踌躇了一会。其实我那年已二十岁,北京已来往过两三次,是没有什么要紧的了。他踌躇了一会,终于决定还是自己送我去。我再三劝他不必去;他只说:“不要紧,他们去不好!”我们过了江,进了车站。我买票,他忙着照看行李。行李太多,得向脚夫行些小费才可过去。他便又忙着和他们讲价钱。我那时真是聪明过分,总觉他说话不大漂亮,非自己插嘴不可,但他终于讲定了价钱;就送我上车。他给我拣定了靠车门的一张椅子;我将他给我做的紫毛大衣铺好座位。他嘱我路上小心,夜里要警醒些,不要受凉。又嘱托茶房好好照应我。我心里暗笑他的迂;他们只认得钱,托他们只是白托!而且我这样大年纪的人,难道还不能料理自己么?我现在想想,我那时真是太聪明了。我说道:“爸爸,你走吧。”他望车外看了看,说:“我买几个橘子去。你就在此地,不要走动。”我看那边月台的栅栏外有几个卖东西的等着顾客。走到那边月台,须穿过铁道,须跳下去又爬上去。父亲是一个胖子,走过去自然要费事些。我本来要去的,他不肯,只好让他去。我看见他戴着黑布小帽,穿着黑布大马褂,深青布棉袍,蹒跚地走到铁道边,慢慢探身下去,尚不大难。可是他穿过铁道,要爬上那边月台,就不容易了。他用两手攀着上面,两脚再向上缩;他肥胖的身子向左微倾,显出努力的样子。这时我看见他的背影,我的泪很快地流下来了。我赶紧拭干了泪。怕他看见,也怕别人看见。我再向外看时,他已抱了朱红的橘子往回走了。过铁道时,他先将橘子散放在地上,自己慢慢爬下,再抱起橘子走。到这边时,我赶紧去搀他。他和我走到车上,将橘子一股脑儿放在我的皮大衣上。于是扑扑衣上的泥土,心里很轻松似的。过一会儿说:“我走了,到那边来信!”我望着他走出去。他走了几步,回过头看见我,说:“进去吧,里边没人。”等他的背影混入来来往往的人里,再找不着了,我便进来坐下,我的眼泪又来了。近几年来,父亲和我都是东奔西走,家中光景是一日不如一日。他少年出外谋生,独力支持,做了许多大事。哪知老境却如此颓唐!他触目伤怀,自然情不能自已。情郁于中,自然要发之于外;家庭琐屑便往往触他之怒。他待我渐渐不同往日。但最近两年不见,他终于忘却我的不好,只是惦记着我,惦记着他的儿子。我北来后,他写了一信给我,信中说道:“我身体平安,惟膀子疼痛厉害,举箸提笔,诸多不便,大约大去之期不远矣。”我读到此处,在晶莹的泪光中,又看见那肥胖的、青布棉袍黑布马褂的背影。唉!我不知何时再能与他相见!此文档生成于 2019年12月13日 朱自清信息表格

3. 表格的输出

然后是表格的输出,如下代码:

tables = document.tables
for table in tables:
	rows = table.rows
	for i in range(0, len(rows)):
		for cell in table.row_cells(i):
			print(cell.text, end='  ')
		print('\n')

详细的代码介绍:

  • document.tables 是获取文档的全部表格,然后进入第一个 for 循环,逐个表格取出并处理
  • table.rows 是获取行对象,使用len()函数,就可以取到行数
  • 然后循环,从 0 取到最后一行
  • 使用 table.row_cells(i) 获取当前行的所有 cell 单元格,使用 for 循环获取每个 cell
  • 然后输出所有 cell 单元格的文本内容,并且换行是空字符串,这是为了将每行的内容,输出时也是一样
  • 然后在一行输出结束时,加换行,将每行内容都分开

以上是表格的代码部分,如下输出结果:
04-读取Word文档内容_Python

4. 图片的获取和保存

最后一个是读取图片,由于在命令行中,无法输出图片,所以这里的操作,是将所有的图片保存到word文档旁边,如下代码:

from docx2python import docx2python

document2 = docx2python('背影-read.docx')
for name, imageData in document2.images.items():
	with open(name, 'wb') as fp:
		fp.write(imageData)

这里使用的是 docx2python 库,这个属于一个 docx 的拓展库。

打开文件,读取文档的全部图片名和字节,然后保存即可,如下效果:
04-读取Word文档内容_Python_02image1.jpg 就是从 docx 中读取出来的图片文件。
背景-read.docx 是目标文档。
读取word文档内容.ipynb 是课程源码,启动 jupyter 即可查看源码并运行。