接到朋友求助,说自己一个数据库里的某个表有大量重复数据,使用mysql语句处理的速度太慢,每次只能处理1W条数据,总共800W条数据需要处理,耗时耗力。分开处理也会有大量的遗漏数据需要二次三次处理,最后得到的数据还是会不准确,很显然用mysql语句处理不怎么好。我想到了python中有一个模块pandas是专门用来处理海量数据的,马上网上查下该模块是否有相关的方法,果然,pandas里的drop_
第一堂课importpandasaspda#importnumpyasnpyimportmatplotlib.pylabaspyldata=pda.read_csv("D:/yali/books.csv")print(data.sort_values(by="comment"))#按指定参数排序print(data.shape)#查看数据统计print(data.describe())#data.
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号