pyspark dataframe 遍历执行函数 python pandas遍历

转载

mob64ca14196783 2023-08-23 13:10:15

文章标签 pandas 遍历 pandas遍历dataframe Python 向量化 Game 文章分类 Spark 大数据

用Python和Pandas进行数据分析，很快就会用到循环。

但在这其中，就算是较小的DataFrame，使用标准循环也比较耗时。
遇到较大的DataFrame时，需要的时间会更长，会让人更加头疼。

现在，有人忍不了了。他是一位来自德国的数据分析师，名叫Benedikt Droste。在给出的替代方案中，使用Numpy向量化，与使用标准循环相比，速度提升了71803倍。

pyspark dataframe 遍历执行函数 python pandas遍历_Game

他是怎么实现的？我们一起来看看~ 标准循环处理3年足球赛数据：20.7秒

DataFrame是具有行和列的Pandas对象。如果使用循环，需要遍历整个对象。 Python不能利用任何内置函数，而且速度很慢。在Benedikt Droste的提供的示例中，是一个包含65列和1140行的Dataframe，包含了2016-2019赛季的足球赛结果。需要解决的问题是：创建一个新的列，用于指示某个特定的队是否打了平局。可以这样开始：

def soc_loop(leaguedf,TEAM,):
    leaguedf[ Draws ] = 99999for row in range(0, len(leaguedf)):if ((leaguedf[ HomeTeam ].iloc[row] == TEAM) & (leaguedf[ FTR ].iloc[row] ==  D )) | 
            ((leaguedf[ AwayTeam ].iloc[row] == TEAM) & (leaguedf[ FTR ].iloc[row] ==  D )):
            leaguedf[ Draws ].iloc[row] =  Drawelif ((leaguedf[ HomeTeam ].iloc[row] == TEAM) & (leaguedf[ FTR ].iloc[row] !=  D )) | 
            ((leaguedf[ AwayTeam ].iloc[row] == TEAM) & (leaguedf[ FTR ].iloc[row] !=  D )):
            leaguedf[ Draws ].iloc[row] =  No_Drawelse:
            leaguedf[ Draws ].iloc[row] =  No_Game

pyspark dataframe 遍历执行函数 python pandas遍历_pandas遍历dataframe_02

在这个案例中是阿森纳，在实现目标之前要确认阿森纳参加了哪些场比赛，是主队还是客队。但使用标准循环非常慢，执行时间为20.7秒。那么，怎么才能更有效率？ Pandas 内置函数: iterrows ()ー快321倍

在第一个示例中，循环遍历了整个DataFrame。iterrows()为每一行返回一个Series，它以索引对的形式遍历DataFrame，以Series的形式遍历感兴趣的列。这使得它比标准循环更快：

def soc_iter(TEAM,home,away,ftr):#team, row[ HomeTeam ], row[ AwayTeam ], row[ FTR ]if [((home == TEAM) & (ftr ==  D )) | ((away == TEAM) & (ftr ==  D ))]:
        result =  Drawelif [((home == TEAM) & (ftr !=  D )) | ((away == TEAM) & (ftr !=  D ))]:
        result =  No_Drawelse:
        result =  No_Gamereturn result

pyspark dataframe 遍历执行函数 python pandas遍历_向量化_03

代码运行时间为68毫秒，比标准循环快321倍。但是，许多人建议不要使用它，因为仍然有更快的选项，而且iterrows()不能跨行保存dtype。这意味着，如果你在DataFrame dtypes上使用iterrows()，可以更改它，但这会导致很多问题。一定要保存dtypes的话，你还可以使用itertuples()。

apply ()方法ー快811倍

apply 本身并不快，但与DataFrame结合使用时，它具有优势。这取决于 apply 表达式的内容。如果可以在 Cython 空间中执行，那么apply要快得多，这里的示例就是这种情况。大家可以在Lambda函数中使用apply。所要做的就是指定这个轴。在本文的示例中，想要执行按列操作，要使用 axis 1：

pyspark dataframe 遍历执行函数 python pandas遍历_向量化_04

这段代码甚至比之前的方法更快，完成时间为27毫秒。 Pandas向量化—快9280倍

此外，也可以利用向量化的优点来创建非常快的代码。重点是避免像之前的示例中的Python级循环，并使用优化后的C语言代码，这将更有效地使用内存。只需要稍微修改一下函数：

def soc_iter(TEAM,home,away,ftr):
    df[ Draws ] =  No_Game
    df.loc[((home == TEAM) & (ftr ==  D )) | ((away == TEAM) & (ftr ==  D )),  Draws ] =  Draw
    df.loc[((home == TEAM) & (ftr !=  D )) | ((away == TEAM) & (ftr !=  D )),  Draws ] =  No_Draw

现在，可以用 Pandas 列作为输入创建新列：

pyspark dataframe 遍历执行函数 python pandas遍历_向量化_05