import imp
imp.reload(sys)

s="""
en: Regular expression is a powerful tool for manipulating text.
zh: 汉语是世界上最优美的语言,正则表达式是一个很有用的工具
jp: 正規表現は非常に役に立つツールテキストを操作することです。
jp-char: あアいイうウえエおオ
kr:정규 표현식은 매우 유용한 도구 텍스트를 조작하는 것입니다.
"""
print ("原始utf8字符" )
#utf8
print ("--------" )
print( repr(s) )
print( "--------\n" )
原始utf8字符
--------
' \n en: Regular expression is a powerful tool for manipulating text. \n zh: 汉语是世界上最优美的语言,正则表达式是一个很有用的工具 \n jp: 正規表現は非常に役に立つツールテキストを操作することです。 \n jp-char: あアいイうウえエおオ \n kr:정규 표현식은 매우 유용한 도구 텍스트를 조작하는 것입니다. \n '
--------

非ansi

#非ansi 
re_words=re.compile(r"[\x80-\xff]+")
#m = re_words.search(s,0)
m1=re.findall(re_words, s)


print ("非ansi字符" )
print ("--------" )
print (m1 )
#print (m.group() )
print ("--------\n" )
非ansi字符
--------
[]
--------

中文

re_words = re.compile(u"[\u4e00-\u9fa5]+") 
#m = re_words.search(s)
m1=re.findall(re_words, s)
#print(''.join(m1))
print( "unicode 中文" )
print(m1)
print( "--------" )
unicode 中文
['汉语是世界上最优美的语言', '正则表达式是一个很有用的工具', '正規表現', '非常', '役', '立', '操作']
--------

韩文

#unicode korean 
re_words=re.compile(u"[\uac00-\ud7ff]+")
#m = re_words.search(s,0)
m1=re.findall(re_words, s)
print( "unicode 韩文" )
print(m1)
print( "--------\n" )
unicode 韩文
['정규', '표현식은', '매우', '유용한', '도구', '텍스트를', '조작하는', '것입니다']
--------

日文 片假名

#unicode japanese katakana 
re_words=re.compile(u"[\u30a0-\u30ff]+")
#m = re_words.search(s,0)
m1=re.findall(re_words, s)
print( "unicode 日文 片假名" )
print ("--------" )

print(m1)
print( "--------\n" )
unicode 日文 片假名
--------
['ツールテキスト', 'ア', 'イ', 'ウ', 'エ', 'オ']
--------

日文 平假名

#unicode japanese hiragana 
re_words=re.compile(u"[\u3040-\u309f]+")
#m = re_words.search(s,0)
m1=re.findall(re_words, s)
print( "unicode 日文 平假名" )
print ("--------" )

print(m1)
print( "--------\n" )
unicode 日文 平假名
--------
['は', 'に', 'に', 'つ', 'を', 'することです', 'あ', 'い', 'う', 'え', 'お']
--------

标点符号

#unicode cjk Punctuation 
re_words=re.compile(u"[\u3000-\u303f\ufb00-\ufffd]+")
#m = re_words.search(s,0)
m1=re.findall(re_words, s)
print( "unicode 标点符号" )
print ("--------" )

print(m1)
print( "--------\n" )
unicode 标点符号
--------
[',', '。']
--------