文章目录

  • 前言
  • 思路
  • 代码
  • 效果
  • 总结



前言

记录一次期末作业,要求:
1、统计三国演义(下卷)前十的高频词,含出现次数。
2、根据上题结果,绘制高频词出现次数的条形图。
3、生成三国演义(下卷)词云图

思路

1.open打开读取整篇文档
2.使用split()方法找到关键字,分开上下卷
3.使用jieba进行中文分词
4.使用Counter统计词频并将前10个高频词使用append添加到列表
5.使用matplotlib模块中的plt函数绘制条形图
6.使用WordCloud模块用刚才保存的高频词列表生成词云图

代码

import jieba
from collections import Counter
from wordcloud import WordCloud  # 导入词云图生成模块
import matplotlib.pyplot as plt  # 导入绘图模块
plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体为SimHei
w = []  # 搞个列表,用来放排名前10的词汇
# 读取文本文件
with open('三国.txt', 'r', encoding='utf-8') as f:  # 打开文本文件,以utf-8编码方式读取,并赋值给变量f
    book = f.read()  # 读取文件内容,并赋值给变量text
    text = book.split('三国演义 下卷')[1]  # 找到关键字分开上下卷,赋值给text

# 使用jieba进行中文分词
words = jieba.cut(text)
# 过滤掉长度小于2的词
filtered_words = [word for word in words if len(word) > 1]
# 统计词频并输出前10个高频词
counter = Counter(filtered_words)
top10 = counter.most_common(10)
for word, count in top10:
    print(f'{word}: {count}')
    w.append(word)  # 把统计的词添加到列表

# 绘制条形图
x = [word for word, count in top10]  # 将top10列表中每个元素的第一个元素(即词语)赋值给列表x
y = [count for word, count in top10]  # 将top10列表中每个元素的第二个元素(即出现次数)赋值给列表y
plt.bar(x, y)  # 绘制条形图,其中x轴为词语,y轴为出现次数
plt.title('三国演义(下卷)前十的高频词')  # 设置图表标题
plt.xlabel('高频词')  # 设置x轴标签
plt.ylabel('出现次数')  # 设置y轴标签
plt.show()  # 显示图表

# 生成词云图
wordcloud = WordCloud(width=800, height=600, background_color='white', font_path='C:\\Windows\\Fonts\\STSONG.TTF').generate((' '.join(w)))  # 使用WordCloud方法,生成词云图,并赋值给变量wordcloud;其中width和height分别指定词云图的宽度和高度,background_color指定背景颜色,font_path指定字体文件路径,' '.join(wo)将w列表中的元素用空格连接成一个字符串
plt.imshow(wordcloud, interpolation='bilinear')  # 显示词云图
plt.axis('off')  # 隐藏坐标轴
plt.show()  # 显示图表

效果

Python统计小说中的高频 python统计高频词汇_赋值


Python统计小说中的高频 python统计高频词汇_Python统计小说中的高频_02

Python统计小说中的高频 python统计高频词汇_Python统计小说中的高频_03

总结

中间遇到了三个问题:

  1. 是分词,最开始不知道该怎么分,想着去掉所有的标点符号,直接统计字数出现的频率。
  2. 是条形图标题出现中文乱码,通过百度得到了在绘图时指定支持中文字符集的字体,例如SimHei、Microsoft YaHei等。具体的方法是在绘图代码中添加以下两行代码:
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体为SimHei
plt.rcParams['axes.unicode_minus'] = False  # 解决负号'-'显示为方块的问题
  1. 词云图乱码,这个找了好久,最后得到结果:WordCloud库默认使用的是英文字体,如果要在生成词云图时使用中文字体,需要通过设置字体参数来解决中文乱码问题。可以使用 font_path 参数来指定中文字体的路径,在 Windows 操作系统中,字体文件通常存储在以下文件夹中:
C:\Windows\Fonts