python 判断字符串有没有中文

原创

mob649e8169b366 2023-10-14 13:13:04 ©著作权

文章标签 中文字符字符串 ico 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob649e8169b366的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python判断字符串是否包含中文字符

在处理文本数据时，有时需要判断一个字符串是否包含中文字符。这在一些文本处理和自然语言处理的任务中非常常见。Python提供了多种方法来判断字符串中是否包含中文字符，本文将介绍其中几种常用的方法。

方法一：使用正则表达式

正则表达式是一种强大的模式匹配工具，可以用来判断字符串是否符合某种模式。要判断字符串是否包含中文字符，可以使用正则表达式匹配中文字符的Unicode范围。

下面是使用正则表达式判断字符串是否包含中文字符的示例代码：

import re

def has_chinese(text):
    pattern = re.compile(r'[\u4e00-\u9fff]+')
    result = pattern.search(text)
    return True if result else False

text1 = "Hello World!"
text2 = "你好，世界！"

print(has_chinese(text1))  # False
print(has_chinese(text2))  # True

在上面的代码中，has_chinese函数使用re.compile方法编译了一个正则表达式模式，该模式可以匹配中文字符的Unicode范围。然后使用pattern.search方法在字符串中搜索是否存在匹配的中文字符。如果存在匹配的中文字符，则返回True，否则返回False。

方法二：使用中文字符的Unicode范围判断

可以通过判断字符串中的字符是否在中文字符的Unicode范围内来判断字符串是否包含中文字符。中文字符的Unicode范围是[\u4e00-\u9fff]。

下面是使用中文字符的Unicode范围判断字符串是否包含中文字符的示例代码：

def has_chinese(text):
    for char in text:
        if '\u4e00' <= char <= '\u9fff':
            return True
    return False

text1 = "Hello World!"
text2 = "你好，世界！"

print(has_chinese(text1))  # False
print(has_chinese(text2))  # True

在上面的代码中，has_chinese函数遍历字符串中的每个字符，然后使用比较运算符判断字符是否在中文字符的Unicode范围内。如果存在符合条件的字符，则返回True，否则返回False。

方法三：使用第三方库

除了使用正则表达式和Unicode范围判断外，还可以使用第三方库来判断字符串是否包含中文字符。其中一种常用的第三方库是zhon，它提供了一些工具函数来处理中文字符。

下面是使用zhon库判断字符串是否包含中文字符的示例代码：

import zhon

def has_chinese(text):
    return any(char in zhon.chars.chinese for char in text)

text1 = "Hello World!"
text2 = "你好，世界！"

print(has_chinese(text1))  # False
print(has_chinese(text2))  # True

在上面的代码中，has_chinese函数使用zhon.chars.chinese来获取中文字符集合，然后使用any函数判断字符串中的字符是否在中文字符集合中。如果存在中文字符，则返回True，否则返回False。

总结

本文介绍了三种常用的方法来判断字符串是否包含中文字符，分别是使用正则表达式、使用中文字符的Unicode范围判断以及使用第三方库。根据实际需求选择合适的方法来判断字符串是否包含中文字符。

甘特图如下所示：

gantt
    dateFormat  YYYY-MM-DD
    title       判断字符串是否包含中文字符

    section 方法一
    编写代码             :2022-01-01, 3d
    测试代码             :2022-01-04, 2d

    section 方法二
    编写代码             :2022-01-06, 3d
    测试代码             :2022-01-09, 2d

    section 方法三
    编写代码             :2022-01-11, 3d
    测试代码             :2022-01-14, 2d