for循环pd合并 python python并行计算for循环

转载

mob6454cc73e9a6 2023-08-23 21:09:20

文章标签 for循环pd合并 python python并行遍历生成器迭代 python 文章分类 Python 后端开发

It seems that python would generate the list of arguments first, and then feed the list to the function “f”, even using xrange. Is that correct?

是的,因为您使用的是列表推导,它明确要求它生成该列表.

(请注意,xrange在这里并不是真正相关的,因为一次只有两个范围,每个范围都是10K；与参数列表的100M相比,没什么.)

如果希望它根据需要动态生成值,而不是一次生成所有100M,则要使用生成器表达式而不是列表推导.几乎总是将括号变成括号的问题：

x=pool.map(f,((i,j) for i in range(10000) for j in range(10000)))

但是,从the source中可以看到,如果给map提供一个生成器,map最终只会列出一个列表,因此在这种情况下,它什么也解决不了. (文档没有明确说明这一点,但是很难看到如果没有长度,如何选择合适的块大小将可迭代对象切成小段……).

而且,即使事实并非如此,结果仍然会再次遇到相同的问题,因为pool.map返回一个列表.

要解决这两个问题,可以改用pool.imap.它懒惰地消耗可迭代,并返回结果的惰性迭代器.

需要注意的一件事是,如果您不通过imap,imap不会猜测最佳的块大小,而只是默认为1,因此您可能需要一些思考或反复试验来优化它.

另外,imap仍会在输入结果时将它们排入队列,因此它可以按照参数的顺序将它们反馈给您.在病理情况下,它可能最终导致结果排队(poolsize-1)/ poolsize,尽管实际上这很少见.如果要解决此问题,请使用imap_unordered.如果您需要了解顺序,只需将参数与参数和结果来回传递即可：

args = ((i, j) for i in range(10000) for j in range(10000))
def indexed_f(index, (i, j)):
return index, f(i, j)
results = pool.imap_unordered(indexed_f, enumerate(args))

但是,我注意到在您的原始代码中,您对f(i,j)的结果根本不做任何事情.在那种情况下,为什么还要费心收集所有结果呢？在这种情况下,您可以返回循环：

for i in range(10000):
for j in range(10000):
map.apply_async(f, (i,j))

但是,imap_unordered可能仍然值得使用,因为它提供了一种非常简便的方法来阻止所有任务完成,同时仍使池本身处于运行状态以供以后使用：

def consume(iterator):
deque(iterator, max_len=0)
x=pool.imap_unordered(f,((i,j) for i in range(10000) for j in range(10000)))
consume(x)

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：jquery 右键点击事件 js 右键事件

下一篇：BIOS中使能网卡的PXE配置 bios网卡选项

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

for循环pd合并 python python并行计算for循环

for循环pd合并 python python并行计算for循环

51CTO博客