1,识别文字,并以图片形式输出

#coding=utf-8
"""
自然语言发展
"""
from wordcloud import WordCloud
def a1():
    s="""Zeng Qiao is one of my friends. She is a beautiful, 
    outgoingand good-tempered girl. She smiles frequently. I 
    think it’s her smile that makes her beauty. We live in the 
    same dormitory, so that we always stay together, no matter 
    going to classroom or having dinners. At first, I don’t like
    her very much, because she is always talking. It seems that"""
    #创建对象
    wd=WordCloud()
    #提取关键词(现在只能提取英文,不能识别中文)
    wd.generate(s)
    #生成图片
    img=wd.to_image()
    #显示图片
    img.show()
a1()

结果:

nlp 关键字识别树_Image


2,可以识别中文的代码,添加了font_path=“simkai.ttf”(但是这个版本无法做到像英文一样提取关键词)

def a2():
    s="""我年轻的时候,我的父亲经常带我去河边。我总是被河边的美丽景色吸引。水很纯洁,干净和蓝蓝的。"
    有些鸟儿飞下来突然间大声吼起来把水面给抓破了而一些草却静静地在水中漂浮。放眼望去,我看见
    河水向东流。然而,在雷雨后,水是浑浊的有些还在河中央旋转。清新的微风吹过让我觉得我脸上都有"
    了水分。即使今天我仍然记得那壮丽的场面和令人印象深刻的感觉。一从那时起,一些不愉快的变化发生了。
    河周围的山已经变秃了。每年越来越多的泥土和灰尘被冲进进河里。仍然糟糕的是,由于经济利润,一些工
    厂不断往河里注入污染物。幸运的是人们已经意识到他们的义务了。"""
    wd=WordCloud(font_path="simkai.ttf")
    wd.generate(s)
    img=wd.to_image()
    img.show()
a2()

结果:

nlp 关键字识别树_python_02

3,解决无法提取关键字问题,引入了包jieba

def a2():
    s="""夯实重大装备制造的基石

机器轰鸣、叉车往返……在刚刚迎来“70岁生日”的沈鼓集团,党的二十大代表、沈鼓集团副总工程师姜妍头戴安全帽,穿梭在机器、设备之间,正带领技术团队测试压缩机核心部件。

多年来,沈鼓集团在有着“工业心脏”之称的压缩机领域接连打破国际垄断,过去10年更是实现了乙烯压缩机组从100万吨级、120万吨级到140万吨级的“三连跳”。“沈鼓之所以能够与国际巨头掰手腕,靠的就是持续创新。”姜妍说,眼下集团正集中力量做好150万吨级乙烯压缩机的制造,“挑战下一个设备量级极限。”

沈鼓集团、中国一重等一批东北“老字号”企业干部职工振奋精神,加快改造升级步伐、进一步夯实国家重大装备制造的基石。"""
    #将整个句子分成一个个的单词
    #rs=jieba.lcut(s)
    #将句子分解成更多的单词
    rs=jieba.lcut_for_search(s)
    #读取图片
    raw=Image.open("5.png")
    #将图片转为数组
    raw=numpy.array(raw)
    wd=WordCloud(font_path="simkai.ttf",mask=raw,background_color="white")
    #str(rs)的作用将词转为字符串
    wd.generate(str(rs))
    img=wd.to_image()
    img.show()
a2()
#让文字输出成图片的形状
def a3():
    raw1=Image.open("5.png")
    raw=numpy.array(raw1)
    print(raw1)
    print(raw)
a3()

结果:

nlp 关键字识别树_python_03


nlp 关键字识别树_python_04