Python 读取 xlsx 文件
在数据分析和数据处理中,经常需要读取 Excel 文件。Excel 文件有多种格式,如 .xls
和 .xlsx
。.xlsx
是 Excel 2007 及以后版本的文件格式,它是一种基于 XML 的文件格式。在 Python 中,我们可以使用 openpyxl
或 pandas
等库来读取 .xlsx
文件。
环境准备
在开始之前,我们需要安装 openpyxl
或 pandas
库。可以使用以下命令安装:
pip install openpyxl pandas
使用 openpyxl 读取 xlsx 文件
openpyxl
是一个 Python 库,用于读写 Excel 2010 xlsx/xlsm/xltx/xltm 文件。以下是使用 openpyxl
读取 .xlsx
文件的基本步骤:
- 导入
openpyxl
库。 - 使用
openpyxl.load_workbook()
函数加载.xlsx
文件。 - 选择工作表(Worksheet)。
- 读取单元格数据。
以下是使用 openpyxl
读取 .xlsx
文件的示例代码:
import openpyxl
# 加载工作簿
workbook = openpyxl.load_workbook('example.xlsx')
# 选择活动的工作表
sheet = workbook.active
# 读取第一行数据
row = sheet[1]
for cell in row:
print(cell.value)
# 读取指定单元格的数据
cell_value = sheet['A1'].value
print(cell_value)
# 关闭工作簿
workbook.close()
使用 pandas 读取 xlsx 文件
pandas
是一个强大的 Python 数据分析库,它提供了读取和写入 Excel 文件的功能。以下是使用 pandas
读取 .xlsx
文件的基本步骤:
- 导入
pandas
库。 - 使用
pandas.read_excel()
函数读取.xlsx
文件。 - 将读取的数据转换为
DataFrame
对象。
以下是使用 pandas
读取 .xlsx
文件的示例代码:
import pandas as pd
# 读取 Excel 文件
df = pd.read_excel('example.xlsx')
# 显示数据
print(df.head())
# 读取指定工作表
df_sheet = pd.read_excel('example.xlsx', sheet_name='Sheet1')
# 显示指定工作表的数据
print(df_sheet.head())
关系图
以下是 openpyxl
和 pandas
库之间的关系图:
erDiagram
LIBRARY ||--o| WORKBOOK : contains
WORKBOOK ||--o| WORKSHEET : contains
WORKSHEET ||--o| CELL : contains
CELL {
int row
int column
string value
}
甘特图
以下是使用 openpyxl
和 pandas
读取 .xlsx
文件的步骤的甘特图:
gantt
title 读取 xlsx 文件的步骤
dateFormat YYYY-MM-DD
section 使用 openpyxl
导入 openpyxl 库 :done, des1, 2022-01-01,2022-01-02
加载工作簿 :done, after des1, 2022-01-03,2022-01-04
选择工作表 :done, after des2, 2022-01-05,2022-01-06
读取单元格数据 :done, after des3, 2022-01-07,2022-01-08
关闭工作簿 :done, after des4, 2022-01-09,2022-01-10
section 使用 pandas
导入 pandas 库 :active, 2022-01-11,2022-01-12
读取 Excel 文件 :after active, 2022-01-13,2022-01-14
将数据转换为 DataFrame 对象 :after active, 2022-01-15,2022-01-16
结论
在本文中,我们介绍了如何使用 openpyxl
和 pandas
库读取 .xlsx
文件。openpyxl
提供了对 Excel 文件的底层操作,而 pandas
提供了更高级的数据处理功能。根据具体需求,可以选择适合的库来处理 Excel 文件。希望本文对您有所帮助。