Python作为一门程序设计语言,在易读、易维护方面有独特优势,越来越多的人使用 Python 进行数据分析和处理,而 Pandas 正是为了解决数据分析任务而创建的,其包含大量能便捷处理数据的函数和方法,使得数据处理变得容易,它也是使 Python 成为强大而高效的数据分析环境的重要因素之一。
但是 Pandas 是个内存的类库,用于处理小数据(能放入内存)没问题,对于大数据(内存放不下)就没有那么方便了。而我们平时工作中却能经常碰到这种较大的文件(从数据库或网站下载出来的数据),Pandas 无能为力,我们就只能自己想办法,本文就来讨论这个问题。
本文所说的大数据,并不是那种 TB、PB 级别的需要分布式处理的大数据,而是指普通 PC 机内存放不下,但可以存在硬盘内的 GB 级别的文件数据,这也是很常见的情况。
由于此类文件不可以一次性读入内存,所以在数据处理的时候,通常需要采用逐行或者分块读取的方式进行处理,虽然 Python 和 pandas 在读取文件时支持这种方式,但因为没有游标系统,使得一些函数和方法需要分段使用或者函数和方法本身都需要自己写代码来完成,下面我们就最常见的几类问题来进行介绍,并写出代码示例供读者参考和感受。
一、 聚合
简单聚合只要遍历一遍数据,按照聚合目标将聚合列计算一遍即可。如:求和(sum),遍历数据时对读取的数据进行累加;计数(count),遍历数据时,记录遍历数即可;平均(mean),遍历时同时记录累计和和遍历数,最后相除即可。这里以求和问题为例进行介绍。
设有如下文件,数据片段如下:
现在需要计算销售总额(amount 列)
(一)逐行读取
(二)pandas分块读取
使用 pandas 可以分块读取了,工作逻辑结构如下图:
pandas更擅长以大段读取的方式进行计算,理论上 chunksize 越大,计算速度越快,但要注意内存的限制。如果 chunksize 设置成 1,就成了逐行读取,速度会非常非常慢,因此不建议使用 pandas 逐行读取文件来完成此类任务。
二、 过滤
过滤流程图:
过滤和聚合差不多,将大文件分成 n 段,对各段进行过滤,最后将每一段的结果进行合并即可。
继续以上面数据为例,过滤出纽约州的销售信息
(一)小结果集
(二)大结果集
大文件聚合和过滤运算的逻辑相对简单,但因为 Python 没有直接提供游标数据类型,代码也要写很多行。
三、 排序
排序流程图:
排序要麻烦得多,如上图所示:
1. 分段读取数据;
2. 对每一段进行排序;
3. 将每一段的排序结果写出至临时文件;
4. 维护一个 k 个元素的列表(k 等于分段数),每个临时文件将一行数据放入该列表;
5. 将列表中的记录的按排序的字段的排序 (与第二步的排序方式相同,升序都升序,降序都降序);
6. 将列表的最小或最大记录写出至结果文件 (升序时最小,降序时最大);
7. 从写出记录的临时文件中再读取一行放入列表;
8. 重复 6.7 步,直至所有记录写出至结果文件。
继续以上面数据为例,用 Python 写一段完整的外存排序算法,将文件中的数据按订单金额升序排序
import pandas as pd
import os
import time
import shutil
import uuid
import traceback
def parse_type(s):
if s.isdigit():
return int(s)
try:
res = float(s)
return res
except:
return s
def pos_by(by,head,sep):
by_num = 0
for col in head.split(sep):
if col.strip()==by:
break
else:
by_num+=1
return by_num
def merge_sort(directory,ofile,by,ascending=True,sep=","):
with open(ofile,'w') as outfile:
file_list = os.listdir(directory)
file_chunk = [open(directory+"/"+file,'r') for file in file_list]
k_row = [file_chunk[i].readline()for i in range(len(file_chunk))]
by = pos_by(by,k_row[0],sep)
outfile.write(k_row[0])
k_row = [file_chunk[i].readline()for i in range(len(file_chunk))]
k_by = [parse_type(k_row[i].split(sep)[by].strip())for i in range(len(file_chunk))]
with open(ofile,'a') as outfile:
while True:
for i in range(len(k_by)):
if i >= len(k_by):
break
sorted_k_by = sorted(k_by) if ascending else sorted(k_by,reverse=True)
if k_by[i] == sorted_k_by[0]:
outfile.write(k_row[i])
k_row[i] = file_chunk[i].readline()
if not k_row[i]:
file_chunk[i].close()
del(file_chunk[i])
del(k_row[i])
del(k_by[i])
else:
k_by[i] = parse_type(k_row[i].split(sep)[by].strip())
if len(k_by)==0:
break
def external_sort(file_path,by,ofile,tmp_dir,ascending=True,chunksize=50000,sep=',',usecols=None,index_col=None):
os.makedirs(tmp_dir,exist_ok=True)
try:
data_chunk = pd.read_csv(file_path,sep=sep,usecols=usecols,index_col=index_col,chunksize=chunksize)
for chunk in data_chunk:
chunk = chunk.sort_values(by,ascending=ascending)
chunk.to_csv(tmp_dir+"/"+"chunk"+str(int(time.time()*10**7))+str(uuid.uuid4())+".csv",index=None,sep=sep)
merge_sort(tmp_dir,ofile=ofile,by=by,ascending=ascending,sep=sep)
except Exception:
print(traceback.format_exc())
finally:
shutil.rmtree(tmp_dir, ignore_errors=True)
if __name__ == "__main__":
infile = "D:/python_question_data/orders.txt"
ofile = "D:/python_question_data/extra_sort_res_py.txt"
tmp = "D:/python_question_data/tmp"
external_sort(infile,'amount',ofile,tmp,ascending=True,chunksize=1000000,sep='\t')
这里是用逐行归并写出的方式完成外存排序的,由于 pandas 逐行读取的方式效率非常低,所以没有借助 pandas 完成逐行归并排序。读者感兴趣的话可以尝试使用 pandas 按块归并,比较下两者的效率。
相比于聚合和过滤,这个代码相当复杂了,对于很多非专业程序员来讲已经是不太可能实现的任务了,而且它的运算效率也不高。
以上代码也仅处理了规范的结构化文件和单列排序。如果文件结构不规范比如不带表头、各行的分隔符数量不同、排序列是不规范的日期格式或者按照多列排序等等情况,代码还会进一步复杂化。
四、 分组
大文件的分组汇总也很麻烦,一个容易想到的办法是先将文件按分组列排序,然后再遍历有序文件,如果分组列值和前一行相同则汇总在同一组内,和前一行不同则新建一组继续汇总。如果结果集过大,还要看情况把计算好的分组结果及时写出。
这个算法相对简单,但性能很差,需要经过大排序的过程。一般数据库会使用 Hash 分组的方案,能够有效地提高速度,但代码复杂度要高出几倍。普通非专业人员基本上没有可能写出来了。这里也就不再列出代码了。
通过以上介绍,我们知道,Python 处理大文件还是非常费劲的,这主要是因为它没有提供为大数据服务的游标类型及相关运算,只能自己写代码,不仅繁琐而且运算效率低。
Python不方便,那么还有什么工具适合非专业程序员来处理大文件呢?
esProc SPL在这方面要要比 Python 方便得多,SPL 是专业的结构化数据处理语言,提供了比 pandas 更丰富的运算,内置有游标数据类型,解决大文件的运算就非常简单。比如上面这些例子都可以很容易完成。
一、 聚合
二、 过滤
三、 排序
四、 分组
特别指出,SPL 的分组汇总就是采用前面说过的数据库中常用的 HASH 算法,效率很高。
SPL中还内置了并行计算,现在多核 CPU 很常见,使用并行计算可以大幅度提高性能,比如分组汇总,只多加一个 @m 就可以变成并行计算。
而 Python 写并行计算的程序就太困难了,网上说啥的都有,就是找不到一个简单的办法。