文章目录
- 前言
- 思路
- 代码
- 效果
- 总结
前言
记录一次期末作业,要求:
1、统计三国演义(下卷)前十的高频词,含出现次数。
2、根据上题结果,绘制高频词出现次数的条形图。
3、生成三国演义(下卷)词云图
思路
1.open打开读取整篇文档
2.使用split()方法找到关键字,分开上下卷
3.使用jieba进行中文分词
4.使用Counter统计词频并将前10个高频词使用append添加到列表
5.使用matplotlib模块中的plt函数绘制条形图
6.使用WordCloud模块用刚才保存的高频词列表生成词云图
代码
import jieba
from collections import Counter
from wordcloud import WordCloud # 导入词云图生成模块
import matplotlib.pyplot as plt # 导入绘图模块
plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体为SimHei
w = [] # 搞个列表,用来放排名前10的词汇
# 读取文本文件
with open('三国.txt', 'r', encoding='utf-8') as f: # 打开文本文件,以utf-8编码方式读取,并赋值给变量f
book = f.read() # 读取文件内容,并赋值给变量text
text = book.split('三国演义 下卷')[1] # 找到关键字分开上下卷,赋值给text
# 使用jieba进行中文分词
words = jieba.cut(text)
# 过滤掉长度小于2的词
filtered_words = [word for word in words if len(word) > 1]
# 统计词频并输出前10个高频词
counter = Counter(filtered_words)
top10 = counter.most_common(10)
for word, count in top10:
print(f'{word}: {count}')
w.append(word) # 把统计的词添加到列表
# 绘制条形图
x = [word for word, count in top10] # 将top10列表中每个元素的第一个元素(即词语)赋值给列表x
y = [count for word, count in top10] # 将top10列表中每个元素的第二个元素(即出现次数)赋值给列表y
plt.bar(x, y) # 绘制条形图,其中x轴为词语,y轴为出现次数
plt.title('三国演义(下卷)前十的高频词') # 设置图表标题
plt.xlabel('高频词') # 设置x轴标签
plt.ylabel('出现次数') # 设置y轴标签
plt.show() # 显示图表
# 生成词云图
wordcloud = WordCloud(width=800, height=600, background_color='white', font_path='C:\\Windows\\Fonts\\STSONG.TTF').generate((' '.join(w))) # 使用WordCloud方法,生成词云图,并赋值给变量wordcloud;其中width和height分别指定词云图的宽度和高度,background_color指定背景颜色,font_path指定字体文件路径,' '.join(wo)将w列表中的元素用空格连接成一个字符串
plt.imshow(wordcloud, interpolation='bilinear') # 显示词云图
plt.axis('off') # 隐藏坐标轴
plt.show() # 显示图表
效果
总结
中间遇到了三个问题:
- 是分词,最开始不知道该怎么分,想着去掉所有的标点符号,直接统计字数出现的频率。
- 是条形图标题出现中文乱码,通过百度得到了在绘图时指定支持中文字符集的字体,例如SimHei、Microsoft YaHei等。具体的方法是在绘图代码中添加以下两行代码:
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体为SimHei
plt.rcParams['axes.unicode_minus'] = False # 解决负号'-'显示为方块的问题
- 词云图乱码,这个找了好久,最后得到结果:WordCloud库默认使用的是英文字体,如果要在生成词云图时使用中文字体,需要通过设置字体参数来解决中文乱码问题。可以使用 font_path 参数来指定中文字体的路径,在 Windows 操作系统中,字体文件通常存储在以下文件夹中:
C:\Windows\Fonts