文本中有多少重复的词 python

原创

mob64ca12d6c78e 2023-09-30 10:54:28 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12d6c78e的原创作品，请联系作者获取转载授权，否则将追究法律责任

文本中有多少重复的词 - Python实现方法

1. 流程概述

在解决问题之前，我们需要了解整个流程。下面是一个简单的流程图，展示了解决文本中有多少重复的词的步骤：

stateDiagram
    [*] --> 输入文本
    输入文本 --> 分割文本
    分割文本 --> 统计词频
    统计词频 --> 输出结果

现在让我们逐步了解每个步骤应该如何实现。

2. 分割文本

首先，我们需要将文本分割成单词，以便我们可以对每个单词进行统计。我们可以使用Python内置的split()函数来实现这一步骤。

text = "This is a sample text. It contains some duplicate words."
words = text.split()  # 使用split()函数将文本分割成单词

在上面的代码中，我们将文本存储在text变量中，然后使用split()函数将其分割成单词，并将结果存储在words变量中。

3. 统计词频

接下来，我们需要统计每个单词在文本中出现的次数。我们可以使用Python的collections模块中的Counter类来实现这一步骤。

from collections import Counter

word_counts = Counter(words)  # 使用Counter类统计单词出现次数

在上面的代码中，我们首先导入了Counter类，然后使用Counter(words)语句创建一个word_counts对象，这个对象将存储每个单词及其出现的次数。

4. 输出结果

最后，我们需要将结果输出给用户。可以将结果打印到控制台上，或者保存到文件中。下面是一个简单的示例，演示如何将结果打印到控制台上。

for word, count in word_counts.items():  # 遍历每个单词及其出现次数
    print(f"{word}: {count}")  # 打印单词和出现次数

上面的代码使用了一个循环，遍历了word_counts中的每个单词及其出现次数，并将其打印到控制台上。

5. 完整代码

下面是将上述步骤整合在一起的完整代码：

from collections import Counter

def count_duplicate_words(text):
    words = text.split()  # 分割文本
    word_counts = Counter(words)  # 统计词频
    for word, count in word_counts.items():  # 输出结果
        print(f"{word}: {count}")

text = "This is a sample text. It contains some duplicate words."
count_duplicate_words(text)

使用上述代码，您可以将文本作为参数传递给count_duplicate_words()函数，并在控制台上打印出每个单词及其出现的次数。