我的电脑是Windows32 位,Python3.6,电脑上需要提前下载好anaconda操作平台,在网上能搜索到,下载即可。另外文本和词云包我是通过“tn/RRLnQgm”直接下载得到。这是我根据知乎专栏 “玉树芝兰” 的视频学习得来,有不懂的或者想更细致学习的请关注他。以下是我自己的体会和总结。

   1、 安装完anaconda后,在开始-所有程序中打开Anaconda Prompt,输入dir可查看目录下所有内容。

 

python 词云 NLP python词云教程_词云

 

python 词云 NLP python词云教程_python_02

在上述基础上,cd Desktop   是为了打开桌面,再dir 即可查看桌面上所有内容。

python 词云 NLP python词云教程_python_03

再在上述基础上,输入cd demo-python-wordcloud-master (是为了打开桌面上这名字为“demo-python-wordcloud-master”文件夹)

python 词云 NLP python词云教程_火狐浏览器_04

2、从链接处下载词云包文件,并通过Anaconda Prompt 导入;词云包和待分析文本必须在同一目录下

因为Windows 不能直接输入pip install wordcloud来安装词云包 .所以需要提前下载好wordcloud(词云)的包,再通过本地导入。在这里我已经提前下载好,并放在桌面上,命名为“demo-python-wordcloud-master” 文件夹的里面,而且数据(待分析的文本,这里是yes-minister文本)也必须在这个文件夹下(同一目录)。下载地址为:https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud    里面 cp27表示是Python2版本用的,cp36表示Python3用的;后缀是32是Windows32位用的,后缀是64的是Windows64用的,如下。

python 词云 NLP python词云教程_词云_05

python 词云 NLP python词云教程_词云_06

再回到anaconda Prompt 下偶从本地下载词云包,在demo-python-wordcloud-master的目录下,输入pip install wordcloud-1.3.3-cp36-cp36m-win32.whl(就是从上边连接处下载的whl文件),回车即可下载好词云包。

3、下载好开源浏览器,例如火狐浏览器、谷歌浏览器等,是为了后边jupyter调用

到此,所有的提前工作已做好:下载好词云包;下载好开源浏览器(例如火狐浏览器等)并设为默认打开的浏览器;

python 词云 NLP python词云教程_python_07

 4、通过anaconda prompt打开jupyter

以上工作做好后,还是回到anaconda prompt下,输入jupyter notebook,回车;会自动打开火狐浏览器并打开就jupyter,会看到桌面上文件夹“demo-python-wordcloud-master”下的文件,如下

python 词云 NLP python词云教程_火狐浏览器_08

python 词云 NLP python词云教程_python_09

点击右中处的new,并选Python3 新建一个空白。 而且点击Untitled可以修改名字。

 

python 词云 NLP python词云教程_词云_10

python 词云 NLP python词云教程_火狐浏览器_11

 

5、在jupyter下输入代码

输入如下代码,

filename = “yes-minister.txt” 是把文本命名filename,输完后要点Run,才能到下一行;

mytext = open(filename, encoding="utf-8")是打开文件.read()是读取文件;encoding="utf-8"是Windows要带的,否则打不开文件

mytext 后就能查看到文本。

注:代码中“=”前后都需要空格,encoding前也需要空格

python 词云 NLP python词云教程_词云_12

 再输入如下代码的,大小写别错;调用Python,然后generate(mytext)产生词云,其实到mycloud这一步已经生成词云,只是还没有可视化,所以并没有出现成我们平常看到的样子,接下来就是可视化过程。

python 词云 NLP python词云教程_词云_13

 6、词云可视化

%matplotlib inline这段代码在jupyter中生成可视化时都要输入,就是告诉jupyter,我要进行可视化了

import是输入Python中的可视化包

plt.axis("off")是为了去除词云左边和下边的坐标轴,不加这段代码会有坐标轴,显得不美观。

python 词云 NLP python词云教程_python 词云 NLP_14