分列在我们日常工作中经常用到。从各种系统中导出的什么订单号啊,名称啊,日期啊有很多都是复合组成的,这些列在匹配、合并时没有办法使用,我们经常需要将她们分开。
像下面的DataFrame, 柜台号是复合的,柜台名称也是复合的,我们只需要后面一部分,并不需要前缀AAA, BBB, .....
网上搜索了一下,以前的做法是将要分的那列迭代并用split()分开,然后将分开后的数据新建一个DataFrame,然后再与原数据合并。比较复杂,大概的代码如下:
df2=pd.DataFrame((x.split('-') for x in df['柜台名称']),index=df.index,columns=['区域','店名'])
df=pd.merge(df,df2,right_index=True, left_index=True)
其实原理清楚的话也不是很复杂。
当然我这里还有稍微简单的办法,其实原理基本一样,只是不再使用迭代,只需要 df['柜台名称'].str.split('-') 取代 x.split('-') for x in df['柜台名称']
我们看到出来的结果已经有索引和列名,明显已经是一个DataFrame了。这就是参数expand=True的作用。
在这里新的DataFrame和原数据df都是使用的默认索引,索引是一致的,可以以索引为键,使用merge()合并。如果索引不同的话,就需要重新设置索引了。
最终的代码只有这么多:
pd.merge(df, pd.DataFrame(df['柜台名称'].str.split('-',expand=True)), how='left', left_index=True, right_index=True)
基本就成功了。
注意:
如果直接用某一列和split()来分列是不行的,因为Series数据类型是没有split()的。
而如果先用.str将这一列转换为类似字符串的格式,就能够使用split()了。
str.split()有三个参数:
第一个参数就是引号里的内容:就是分列的依据。可以是空格,符号,字符串等等。
在上面这个图里,使用‘2’作为分列依据,含有2的三行就分开了,没有含2的就没有分列。这种情况在后面转换成DataFrame时会出错。
第二个参数就是前面用到的expand=True,这个参数直接将分列后的结果转换成DataFrame。
可能有的人会想到一个问题,如果用于分列的依据符号在有多个的话会发生什么:
在这里三个A,就分了三次。
第三个参数的n=数字就是限制分列的次数。
分列1次,变成两列。
分列两次,变成三列。
如果我想从最右边的开始找分列的依据,可以使用rsplit()
在这里三个A是挨在一起的看不出来左右。rsplit和split()的用法类似,一个从右边开始,一个从左边开始。