python提取字符串中的　中文　日文　韩文

原创

luoganttcc 2023-01-13 06:43:49 博主文章分类：自然语言处理 ©著作权

©著作权归作者所有：来自51CTO博客作者luoganttcc的原创作品，请联系作者获取转载授权，否则将追究法律责任

import imp
imp.reload(sys)
 
s=""" 
 en: Regular expression is a powerful tool for manipulating text. 
 zh: 汉语是世界上最优美的语言，正则表达式是一个很有用的工具 
 jp: 正規表現は非常に役に立つツールテキストを操作することです。 
 jp-char: あアいイうウえエおオ 
 kr:정규 표현식은 매우 유용한 도구 텍스트를 조작하는 것입니다. 
 """ 
print ("原始utf8字符" )
#utf8 
print ("--------" )
print( repr(s) )
print( "--------\n" )

原始utf8字符
--------
' \n en: Regular expression is a powerful tool for manipulating text. \n zh: 汉语是世界上最优美的语言，正则表达式是一个很有用的工具 \n jp: 正規表現は非常に役に立つツールテキストを操作することです。 \n jp-char: あアいイうウえエおオ \n kr:정규 표현식은 매우 유용한 도구 텍스트를 조작하는 것입니다. \n '
--------

非ansi

#非ansi 
re_words=re.compile(r"[\x80-\xff]+") 
#m = re_words.search(s,0) 
m1=re.findall(re_words, s)


print ("非ansi字符" )
print ("--------" )
print (m1 )
#print (m.group() )
print ("--------\n" )

非ansi字符
--------
[]
--------

中文

re_words = re.compile(u"[\u4e00-\u9fa5]+") 
#m = re_words.search(s) 
m1=re.findall(re_words, s)
#print(''.join(m1))
print( "unicode 中文" )
print(m1)
print( "--------" )

unicode 中文
['汉语是世界上最优美的语言', '正则表达式是一个很有用的工具', '正規表現', '非常', '役', '立', '操作']
--------

韩文

#unicode korean 
re_words=re.compile(u"[\uac00-\ud7ff]+") 
#m = re_words.search(s,0) 
m1=re.findall(re_words, s)
print( "unicode 韩文" )
print(m1)
print( "--------\n" )

unicode 韩文
['정규', '표현식은', '매우', '유용한', '도구', '텍스트를', '조작하는', '것입니다']
--------

日文片假名

#unicode japanese katakana 
re_words=re.compile(u"[\u30a0-\u30ff]+") 
#m = re_words.search(s,0) 
m1=re.findall(re_words, s)
print( "unicode 日文 片假名" )
print ("--------" )

print(m1)
print( "--------\n" )

unicode 日文 片假名
--------
['ツールテキスト', 'ア', 'イ', 'ウ', 'エ', 'オ']
--------

日文平假名

#unicode japanese hiragana 
re_words=re.compile(u"[\u3040-\u309f]+") 
#m = re_words.search(s,0) 
m1=re.findall(re_words, s)
print( "unicode 日文 平假名" )
print ("--------" )

print(m1)
print( "--------\n" )

unicode 日文 平假名
--------
['は', 'に', 'に', 'つ', 'を', 'することです', 'あ', 'い', 'う', 'え', 'お']
--------

标点符号

#unicode cjk Punctuation 
re_words=re.compile(u"[\u3000-\u303f\ufb00-\ufffd]+") 
#m = re_words.search(s,0) 
m1=re.findall(re_words, s)
print( "unicode 标点符号" )
print ("--------" )

print(m1)
print( "--------\n" )

unicode 标点符号
--------
['，', '。']
--------

上一篇：python 去除字符串里所有标点符号

下一篇：python将列表横着输出来

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

python提取字符串中的 中文 日文 韩文

python提取字符串中的 中文 日文 韩文

51CTO博客

python提取字符串中的　中文　日文　韩文

python提取字符串中的　中文　日文　韩文