python 读取word 将表格转换为DataFrame python读取word表格写入excel

转载

mob64ca14116c53 2023-11-14 10:48:31

文章标签 列表 excel poi qml openssh 文章分类 Python 后端开发

作者：林小呆

今日需求

python 读取word 将表格转换为DataFrame python读取word表格写入excel_列表

其实就是把Word中的表格转到Excel中，顺便做一个调整。这个需求在实际工作中，很多人还是经常碰到的！

如果单单是两个表格，那只要简单的复制黏贴即可，但如果上百了呢？那就得考虑自动化了。好在今天碰到的需求中的原文件格式是比较有规律的，那直接来尝试一下。

# 首先要pip install python-docx
# 如果原文件是doc格式，那就先转成docx
from docx import Document
import pandas as pd

path = "./word表格转excel.docx"
docx = Document(path)
table_s = docx.tables  # 返回一个Table对象的列表

len(table_s) --> 2 # 返回值是2，因为原文件中只有两个表格

list_ = []  # 初始化一个空列表，用来装后面的dict_

for table in table_s:  # 循环所有的表格列表
    dict_ = {}
    dict_['名称'] = table.cell(0, 1).text  # 表格的索引是从（0行，0列）开始
    dict_['身份'] = table.cell(0, 3).text
    dict_['简介'] = table.cell(1, 1).text
    for i in range(3, len(table.rows)):  # 后续的内容格式不固定，所以循环获取
        dict_[table.cell(i, 0).text] = table.cell(i, 1).text
    list_.append(dict_)

当完成上述操作后,list_就会是一个字典列表。

python 读取word 将表格转换为DataFrame python读取word表格写入excel_列表_02

接下来，将列表转为DataFrame进行操作即可。

df = pd.DataFrame(list_)

# 先将前三列作为索引，然后逆透视其他列，其实这就是个一维表转二维表的过程
df = df.set_index(['名称', '身份', '简介']).stack(level=0).to_frame()

# 重新设置一下行列索引的名字
df.index.names = ['名称', '身份', '简介', '物质']
df.columns = ['现状']

此时的df就跟需求结果相差不大了。

python 读取word 将表格转换为DataFrame python读取word表格写入excel_列表_03

最后将DataFrame导出，稍作美化即可完成需求。

# 导出的时候一定要设置index=True不然只会保留一列Series
df.to_excel("data3.xlsx", index=True, merge_cells=True)

完整代码

# 首先要pip install python-docx
# 如果原文件是doc格式，那就先转成docx
from docx import Document
import pandas as pd

path = "./word表格转excel.docx"
docx = Document(path)
table_s = docx.tables  # 返回一个Table对象的列表

list_ = []  # 初始化一个空列表，用来装后面的dict_

for table in table_s:  # 循环所有的表格列表
    dict_ = {}
    dict_['名称'] = table.cell(0, 1).text  # 表格的索引是从（0行，0列）开始的
    dict_['身份'] = table.cell(0, 3).text
    dict_['简介'] = table.cell(1, 1).text
    for i in range(3, len(table.rows)):  # 循环获得后面的内容
        dict_[table.cell(i, 0).text] = table.cell(i, 1).text
    list_.append(dict_)

df = pd.DataFrame(list_)

# 先将前三列作为索引，然后逆透视其他列，就是个一维表转二维表的过程
df = df.set_index(['名称', '身份', '简介']).stack(level=0).to_frame()

# 重新设置一下行列索引的名字
df.index.names = ['名称', '身份', '简介', '物质']
df.columns = ['现状']

# 导出的时候一定要设置index=True不然只会保留一列Series
df.to_excel("data3.xlsx", index=True, merge_cells=True)

◆ ◆ ◆  ◆ ◆麟哥新书已经在当当上架了，我写了本书：《拿下Offer-数据分析师求职面试指南》，目前当当正在举行活动，大家可以用相当于原价5折的预购价格购买，还是非常划算的：

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：python 2字节异或 python字符串异或校验和计算

下一篇：python环境变了管理工具 python 环境管理

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

python 读取word 将表格转换为DataFrame python读取word表格写入excel

python 读取word 将表格转换为DataFrame python读取word表格写入excel

今日需求

完整代码

51CTO博客