使用python代码实现HMM分词的过程主要包括 python分词原理

转载

mob64ca140a8e67 2024-04-28 12:12:32

文章标签 大数据 python 词云字符串词频 文章分类 Python 后端开发

设计思想

本次实验的整体设计思想分为四个部分

使用网络爬虫将网上的文章进行爬取下来存储到english.txt文件中
使用jieba分词将english.txt文件中的英文文章进行分词
进行分词后在进行统计词频并以字典的方式存储
将统计词频后的数据导入到词云中进行词云制作

实现过程

在进行爬取网页数据的过程中我使用的是Urllib库

使用python代码实现HMM分词的过程主要包括 python分词原理_字符串_05

使用下方函数进行爬取

使用python代码实现HMM分词的过程主要包括 python分词原理_词频_06

使用下方函数将爬取的数据保存到english.txt文本文档中

使用python代码实现HMM分词的过程主要包括 python分词原理_大数据_07

在进行文本分词的时候，我使用的是jieba库

使用python代码实现HMM分词的过程主要包括 python分词原理_python_08

使用下方函数进行分词

使用python代码实现HMM分词的过程主要包括 python分词原理_python_09

在进行统计词频的时候，我使用Count计数器

使用python代码实现HMM分词的过程主要包括 python分词原理_字符串_10

使用下方函数进行统计词频，并以字典的形式保存。

使用python代码实现HMM分词的过程主要包括 python分词原理_字符串_11

我们使用一个for循环来查找出现频率最高的十五个单词

使用python代码实现HMM分词的过程主要包括 python分词原理_大数据_12

同样使用for循环来查找长度大于6并包含6的单词的个数

使用python代码实现HMM分词的过程主要包括 python分词原理_大数据_13

使用wordcloud包进行制作词云

使用python代码实现HMM分词的过程主要包括 python分词原理_字符串_14

制作词云，并导入统计词频后的文本

使用python代码实现HMM分词的过程主要包括 python分词原理_字符串_15

最后保存词云到同名目录下即可

使用python代码实现HMM分词的过程主要包括 python分词原理_字符串_16

结果

输出结果：

使用python代码实现HMM分词的过程主要包括 python分词原理_词云_17

词云图：

使用python代码实现HMM分词的过程主要包括 python分词原理_词频_18

源码

# author: #

# 输入库
import jieba
import wordcloud
from collections import Counter
from urllib.request import urlopen
textPage=urlopen("http://www.pythonscraping.com/pages/warandpeace/chapter1.txt")
fileObject = open('english.txt', 'wb+')  # "wb+"是指 按二进制的方式打开

for ip in textPage:

    fileObject.write(ip)

# fileObject.write('\n')

fileObject.close()

print(textPage.read())
from pathlib import Path
# 读取后关闭txt文件
file = open("english.txt", "r", encoding="utf-8")  # 文件格式是utf-8，文件名是xxx.txt
t = file.read()
file.close()

# jieba分词
ls = jieba.lcut(t)
txt = " ".join(ls)
count1 = Counter(ls)
most_count1=count1.most_common()
words_list1 = []
#统计出现频率最高的十五个单词
for i in most_count1:

    if len(i[0]) >=2 and len(i[0]) <=100:

        words_list1.append(i)
print("出现频率最高的十五个单词：")
print(words_list1[:5])
print(words_list1[5:10])
print(words_list1[10:15])
num = 0
for i in most_count1:
    if len(i[0]) >=6 :
        num+= 1
print("长度为6个以上（含6个）字母的单词个数:",num,"个")

# words = jieba.lcut(text_content)
# 用Counter方法计算单词频率数



 #  设置词云图
w = wordcloud.WordCloud(
    font_path="C:/Windows/Fonts/STXINGKA.TTF",  # 词云字体
    width=1000,  # 图片宽度
    height=800,  # 图片高度
    background_color="white")  # 图片背景颜色

# 将文字导入词云
w.generate(txt)

# 保存词云图
w.to_file("wordcloud.png")

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。