python列表分组 python 分列

转载

分列在我们日常工作中经常用到。从各种系统中导出的什么订单号啊，名称啊，日期啊有很多都是复合组成的，这些列在匹配、合并时没有办法使用，我们经常需要将她们分开。

像下面的DataFrame, 柜台号是复合的，柜台名称也是复合的，我们只需要后面一部分，并不需要前缀AAA, BBB, .....

网上搜索了一下，以前的做法是将要分的那列迭代并用split()分开，然后将分开后的数据新建一个DataFrame，然后再与原数据合并。比较复杂，大概的代码如下：

df2=pd.DataFrame((x.split('-') for x in df['柜台名称']),index=df.index,columns=['区域','店名'])
df=pd.merge(df,df2,right_index=True, left_index=True)

其实原理清楚的话也不是很复杂。

当然我这里还有稍微简单的办法，其实原理基本一样，只是不再使用迭代，只需要 df['柜台名称'].str.split('-') 取代 x.split('-') for x in df['柜台名称']

我们看到出来的结果已经有索引和列名，明显已经是一个DataFrame了。这就是参数expand=True的作用。

在这里新的DataFrame和原数据df都是使用的默认索引，索引是一致的，可以以索引为键，使用merge()合并。如果索引不同的话，就需要重新设置索引了。

最终的代码只有这么多：

pd.merge(df, pd.DataFrame(df['柜台名称'].str.split('-',expand=True)), how='left', left_index=True, right_index=True)

基本就成功了。

注意：

如果直接用某一列和split()来分列是不行的，因为Series数据类型是没有split()的。

而如果先用.str将这一列转换为类似字符串的格式，就能够使用split()了。

str.split()有三个参数：

第一个参数就是引号里的内容：就是分列的依据。可以是空格，符号，字符串等等。

在上面这个图里，使用‘2’作为分列依据，含有2的三行就分开了，没有含2的就没有分列。这种情况在后面转换成DataFrame时会出错。

第二个参数就是前面用到的expand=True，这个参数直接将分列后的结果转换成DataFrame。

可能有的人会想到一个问题，如果用于分列的依据符号在有多个的话会发生什么：

在这里三个A，就分了三次。

第三个参数的n=数字就是限制分列的次数。

分列1次，变成两列。

分列两次，变成三列。

如果我想从最右边的开始找分列的依据，可以使用rsplit()

在这里三个A是挨在一起的看不出来左右。rsplit和split()的用法类似，一个从右边开始，一个从左边开始。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客