数据准备先放在pandas的dataframe数据结构内, 然后遇到效率问题 (处理慢)和 空间问题(数据量过大oom),表现为:数据存储慢,数据加载到内存困难。 这里就记录下处理超大数据集用到的方法,以供大家参考。 一般数据读取,加载和保存在现有的dataframe上没有太好的解决办法,但是可以充分利用现在服务器的高性能多核的特性(利用所有IDLE CPU内核),当然这里有有点也有缺点。
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号