看了很多攻略,但都是全部去除字符串中所有的重复字符或者全部去除字符串所有相邻的重复字符,如果希望得到字符串中相邻字符去重后的全部字符,比如字符串a=‘abbcccd222aaabbbddfff6e’,去重后能得到’abcd2abdf6e’,那可以参考以下代码。
一、普通字符串中的去重
'''字符串a='abbcccd222aaabbbddfff6e',去重后得到'abcd2abdf6e'。'''
a='abbcccd222aaabbbddfff6e'
qc=[] #建立一个空列表
#建立一个循环,依次取出字符串中的元素,判定后重新组合
for i in a:
if len(qc)==0:
qc.append(i) #将字符串第1个元素放进去
else:
if i==qc[-1]: # 判断是否与列表最后一个元素相同
continue # 相同则不做任何处理
else:
qc.append(i) #不同就添加到列表中
print(qc)
print(''.join(qc))
二、Dataframe中某列内容的去重
如果对名为“df”的dataframe中的字段“A”进行该去重,得到“A2”列,则需要将该段代码包装成函数,再通过lambda函数带进去。
#定义去重函数“quchong”
def quchong(x):
qc=[]
for i in x:
if len(qc)==0:
qc.append(i) #将字符串第1个元素放进去
else:
if i==qc[-1]: # 判断是否与列表最后一个元素相同
continue # 相同则不做任何处理
else:
qc.append(i) #不同就添加到列表中
return ''.join(qc)
#用lambda函数应用到列“A”,得到去重后的“A2”列
df['A2'] = df.apply(lambda x : quchong(x['A']),axis = 1)