去除标点符号方式多种多样,这里介绍两种自己常用的。
1、python自带punctuation包,可以消除所有中文标点符号。
import re,string
from zhon.hanzi import punctuation
text = " Hello, world! 这,是:我;第!一个程序\?()()<>《》 "
print(re.sub(r"[%s]+" %punctuation, "",text))
Hello world 这是我第一个程序
2、自己定义标点符号集,即可以消除中文标点符号也可以消除英文标点符号。
import re,string
text = " Hello, world! 这,是:我;第!一个程序\?()()<>《》 "
punc = '~`!#$%^&*()_+-=|\';":/.,?><~·!@#¥%……&*()——+-=“:’;、。,?》《{}'
print(re.sub(r"[%s]+" %punc, "",text))
Hello world 这是我第一个程序