python123用字典来统计词频

原创

mob64ca12e58adb 2024-03-28 04:48:27 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12e58adb的原创作品，请联系作者获取转载授权，否则将追究法律责任

用字典来统计词频

在自然语言处理中，统计词频是非常常见的一个任务。通过统计文本中每个词出现的频率，我们可以了解到文本中哪些词出现的最频繁，从而对文本进行进一步的分析和处理。Python中的字典结构非常适合用来统计词频，其键值对的特性能够方便地存储每个词和其对应的出现次数。

字典的基本概念

在Python中，字典是一种无序的数据结构，使用键值对存储数据。每个键值对之间使用逗号分隔，整个字典包裹在花括号中。字典中的键是唯一的，而值可以重复。

下面是一个简单的字典示例：

# 创建一个字典
my_dict = {'apple': 2, 'banana': 3, 'orange': 1}

# 打印字典中的值
print(my_dict['apple'])  # 输出：2

在上面的示例中，我们创建了一个字典my_dict，其中包含了三组键值对。我们可以通过键来获取对应的值，例如my_dict['apple']会返回2。

用字典统计词频

接下来，我们将结合字典的特性，来实现统计文本中词频的功能。首先，我们需要将文本按照单词进行分割，并去除标点符号和空格。然后，遍历每个单词，利用字典来统计其出现的次数。

下面是一个用字典统计词频的示例代码：

def word_freq(text):
    # 初始化一个空字典，用于存储单词及其出现次数
    word_count = {}
    
    # 将文本按照空格进行分割，并去除标点符号
    words = text.split()
    words = [word.strip('.,!?"\'') for word in words]
    
    # 遍历每个单词，统计词频
    for word in words:
        word = word.lower()  # 统一转换为小写
        if word in word_count:
            word_count[word] += 1
        else:
            word_count[word] = 1
    
    return word_count

# 测试
text = "Python is a widely used high-level programming language for general-purpose programming."
result = word_freq(text)
print(result)

在上面的代码中，我们定义了一个word_freq函数，该函数接受一个文本字符串作为参数，返回一个字典，其中包含了每个单词及其出现的次数。我们首先将文本按照空格分割成单词，并且去除标点符号。然后遍历每个单词，将其转换为小写，并统计其出现的次数。

序列图

接下来，我们通过序列图来展示上面代码的执行流程：

sequenceDiagram
    participant User
    participant word_freq
    participant text
    
    User ->> word_freq: 调用word_freq函数
    word_freq ->> text: 拆分文本并统计词频
    text -->> word_freq: 返回词频字典
    word_freq -->> User: 返回结果

在序列图中，用户调用了word_freq函数，该函数对文本进行拆分并统计词频，最终返回结果给用户。