DAY 184 Excel模块Openpyxl教程-基础操作

转载

mb5fd86cce321a9 2021-08-15 10:33:00

1.openpyxl简介

openpyxl是用于读取/写入Excel 2010 xlsx/xlsm文件的Python库，也就是说openpyxl这个Python库不支持xls文件的读取和操作，如果在工作中遇到xls文件我们就不能使用这个库。官方说它的诞生是因为缺少可从Python本地读取/写入Office Open XML格式的库，为了方便大家就开发了这个库，这是非常棒的。

2.文件转换

上述提到openpyxl只能操作xlsx文件，当我们遇到xls文件的时候就需要进行转化，转换方式这里提供几种方案供大家参考：

方法一：手动打开xlsx文件，然后另存为xlsx类型的文件。

方法二：使用pywin32模块进行转换，示例代码如下：

import os
import win32com.client as win32
filename = r'C:\Users\XH\Desktop\1.xls'
Excelapp = win32.gencache.EnsureDispatch('Excel.Application')
workbook = Excelapp.Workbooks.Open(filename)
# 转xlsx时: FileFormat=51,
# 转xls时:  FileFormat=56,
workbook.SaveAs(filename.replace('xls', 'xlsx'), FileFormat=51)
workbook.Close()
Excelapp.Application.Quit()
# 删除源文件
# os.remove(filename)

# 如果想将xlsx的文件转换为xls的话，则可以使用以下的代码：
# workbook.SaveAs(filename.replace('xlsx', 'xls'), FileFormat=56)

方法三：使用pandas模块进行转换，代码如下：

import pandas as pd
filename = r'C:\Users\XH\Desktop\1.xls'
filename2 = r'C:\Users\XH\Desktop\1.xlsx'
read_res = pd.read_excel(filename)
read_res.to_excel(filename2, index=False)

方法三在很多情况下出现一定的错误，比如在很多时候因为源表格的问题会造成数据丢失类的错误。个人推荐使用第二种方法。

3.基本操作-创建工作簿

安装openpyxl这个模块非常简单，cmd窗口中输入: pip install openpyxl。无需在文件系统上创建文件即可开始使用openpyxl。接下来我们来进行一个简单操作：

1、创建一个新的名为Mytest.xlsx文件。

2、在工作簿上第一个位置新建一个名为“mytest”的sheet页。

我们可以这样来实现，代码中每一个操作上都有相应的注释：

from openpyxl import Workbook
# 创建一个工作簿对象
wb = Workbook()
# 在索引为0的位置创建一个名为mytest的sheet页
ws = wb.create_sheet('mytest',0)
# 对sheet页设置一个颜色（16位的RGB颜色）
ws.sheet_properties.tabColor = 'ff72BA'
# 将创建的工作簿保存为Mytest.xlsx
wb.save('Mytest.xlsx')
# 最后关闭文件
wb.close()

最后生成的文件样式如下：

DAY 184 Excel模块Openpyxl教程-基础操作_desktop

那么打开已有的文件Mytest.xlsx，读取一些信息怎么操作呢?我们可以这样：

from openpyxl import load_workbook
# 加载工作簿
wb2 = load_workbook('Mytest.xlsx')
# 获取sheet页
ws2 = wb2['mytest']
ws3 = wb2.get_sheet_by_name('mytest')
# 打印sheet页的颜色属性值
print('color:',ws2.sheet_properties.tabColor)
wb2.close()

上述代码的输出如下，可以看到一些属性值或参数：

color: <openpyxl.styles.colors.Color object>
Parameters:
rgb='00ff72BA', indexed=None, auto=None, theme=None, tint=0.0, type='rgb'

另外，有些小伙伴可能看到上述代码中，ws2和ws3都是获取sheet页签的。的确这两种方法的效果是一样的，大家在平时的工作中都可以使用。

如果想获取这个工作簿的所有sheet页，可以这样：

print(wb2.sheetnames)

注意sheetnames属性值是一个列表，输出的结果为一个列表：['mytest', 'Sheet']使用for循环也是可以的：

for each_sheet in wb2.sheetnames:
print('each_sheet:',each_sheet)

4.基本操作-访问单元格

使openpyxl访问单元格很简单，分单个单元格访问和多个单元格的访问。我们接着来学习：访问单元格的方式一般也有两种做法：假设现在我们要访问单个单元格A1，我们可以这样：

cell_1 = ws2['A1']cell_2 = ws2.cell(row=1, column=1)

如果要取得这个单元格的内容，只需要在结尾加上value属性就可以了：

value_1 = ws2['A1'].value
value_2 = ws2.cell(row=1, column=1).value

如果需要给单元格进行设置值，则可以这样实现，比如给单元格A1设置内容：

ws2['A1'].value = 'python知识学堂'
ws2.cell(row=1, column=1).value ='python知识学堂'

对于多个单元格的设置就要借助for循环了。注意，设置后要保存工作簿，否则没有效果。

多个单元格的获取一般需要用到列表切片的知识或者使用for循环来进行:

# 访问A1至C3范围单元格
cell_range = ws2['A1':'C3']
# 访问A列所有存在数据的单元格
colA = ws2['A']
# 访问A列到C列所有存在数据的单元格
col_range = ws2['A:C']
# 访问第1行所有存在数据的单元格
row1 = ws2[1]
# 访问第1行至第5行所有存在数据的单元格
row_range = ws2[1:5]

注意，上述cell_range等对象都是<class 'tuple'>类型的。如果先获取这些单元格中的值，我们可以这样：

for each_cell in cell_range:
for each in each_cell:
print(each.value)

for each_cell in colA:
print(each_cell.value)

至于为什么获取cell_range和colA的for循序的次数不一样，这个问题就留给大家自己了。

for循环的方式访问多个单元格可以这样：

for row in ws2.iter_rows(min_row=1, max_col=2, max_row=2):
for cell in row:
print(cell)
#输出：
<Cell 'mytest'.A1>
<Cell 'mytest'.B1>
<Cell 'mytest'.A2>
<Cell 'mytest'.B2>

for col in ws2.iter_cols(min_row=1, max_col=2, max_row=2):
for cell in col:
print(cell)
#输出：
<Cell 'mytest'.A1>
<Cell 'mytest'.A2>
<Cell 'mytest'.B1>
<Cell 'mytest'.B2>

这两个方法是按行优先和列优先的顺序进行访问单元格的。

大家可以新建一个工作簿，然后在工作簿中写入一些数据，之后运行以下代码看看打印一些什么：

print(tuple(ws2.rows))
print(tuple(ws2.columns))

注意：ws2.rows和ws2.columns是generator对象，因此需要使用tuple进行“解析”下。

5.最后的注意

使用openpyxl进行工作的时候，当一个工作结束的时候我们需要进行Excel文件的保存操作：wb.save('Mytest.xlsx')。这个保存唯一需要注意的是：文件是默认替换的。也就是说我们在保存文件的时候，openpyxl将进行替换而不发出告警。如果大家想保存不同阶段的文件，则可以在保存文件的时候加一个时间戳。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。