# yyds干货盘点 # 需求是统计excel表格每个sheet的行数，请问还有更快捷的方法么?

原创

Python进阶者 2024-09-07 23:05:09 博主文章分类：Python那些事儿 ©著作权

文章标签 数据 Python for循环 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者Python进阶者的原创作品，请联系作者获取转载授权，否则将追究法律责任

大家好，我是Python进阶者。

一、前言

前几天在Python最强王者交流群【wen】问了一个Pandas处理数据的问题，问题如下：

import pandas as pd
import polars as pl
import time
start_time = time.time()

df = pd.read_excel('G:\input\测试.xlsx', sheet_name=None, dtype=str,engine='calamine')
sheet_names = list(df.keys())
for sheet_name in sheet_names:
    df_sheet = pl.read_excel('G:\input\测试.xlsx', sheet_name=sheet_name)
    print(f'{sheet_name}----------{df_sheet.height}')
end_time = time.time()
time_taken = end_time - start_time

请教，需求是统计excel表格每个sheet的行数，请问还有更快捷的方法么?

之前没使用calamine引擎，13万行数据大概需要50秒，使用calamine压缩到10秒

二、实现过程

后来【隔壁😼山楂】给了一些建议如下：为什么需要read两边呢

【wen】：第一次提取sheet的名字

【隔壁😼山楂】：第一次的时候已经把表全部提取出来了。如果只想提取名字，应该限制行数。

【平庸】：可以不用的，sheet name=none ，然后读取出来的就是整个表格，再循环就能取到每个表了，没必要搞两个循环

【wen】：那代码怎么设置啊，我是再for循环一次？我测试 polars的速读最快 25万条数据大概4秒搞定

【隔壁😼山楂】：你只写df = pd.read_excel('G:\input\测试.xlsx', sheet_name=None, dtype=str,engine='calamine') 多久

【wen】：

df = pd.read_excel('G:\input\测试.xlsx', sheet_name=None, dtype=str,engine='calamine')
for sheet_name,dataframe in df.items():
    print(f'{sheet_name}-----------{dataframe.shape[0]}')
end_time = time.time()
time_taken = end_time - start_time
print(f'calamine----{time_taken}')

现在压缩到5秒，确实重复读取两次浪费太多时间。5秒，不用calamine殷勤大概25秒。

【平庸】不要dtype 是慢点还是快点？然后shape换成info 是慢点还是快点

【wen】：我试试。Pandas只使用一个cpu核太慢了

【平庸】：是的咯

【wen】：Polars最快，但是要修改很多代码，我觉得目前最快捷就是加上calamine引擎。也尝试使用modin 但是速度和没有pandas一样可能是我设置的问题。

【隔壁😼山楂】：主要是excel不好读，换成其他的就快很多

【沈复】：有高并发，多核的版本。

【wen】：请问具体是什么版本啊

下图是对应的库：

# yyds干货盘点 # 需求是统计excel表格每个sheet的行数，请问还有更快捷的方法么?_Python