一、安装nltk库
1.查看官方文档的方法(笔者没使用这种方法)
Installing NLTK (Win、Linux、Mac的安装都有讲解,但笔者没使用这种方法。)
2.使用PyCharm安装
在系统设置里找到Python Interpreter(译为python解释器)。
看看当前有哪些解释器,选择一个当前正在使用的解释器。然后点击左侧+号,
输入要安装的nltk库,点击下方Install Package,等待即可。
3.测试是否安装完成
可以用以下代码测试nltk分词的功能:
from nltk.tokenize import wordpunct_tokenize
if __name__ == "__main__":
s = '''Good muffins cost $3.88\nin New York. Please buy me
... two of them.\n\nThanks.'''
print(wordpunct_tokenize(text=s)) # 分词
出现下图结果,说明安装成功。
二、安装nltk_data数据包
1.用官方文档的方法(笔者试过但是失败了)
官方文档:Installing NLTK Data以下是我的操作步骤:
首先,尝试直接在编辑器里输入下方代码:
import nltk
nltk.download()
这样子,大概率是失败的。原文(如下)中提到“do the following from an administrator account.”,但我没有给PyCharm管理员权限。
应该在命令行输入:sudo python,再输入上面的两行代码。
然后出现这个弹窗。
注意:针对不同系统,官方给出了推荐的Download Directory(下载目录)。所以,上方的弹窗的Download Directory可以设置为推荐路径。
但是不知道是不是网络问题,无法使用这种方法。
2.下载nltk数据包,移到相应文件夹下。(亲测有效)
这个博客讲述了这种方法:离线下载安装NLTK的nltk_data数据包。
2.1下载nltk数据包:
三个资源:
- 百度网盘,网址,密码lxmh
- github,网址
- gitee(码云)(推荐),网址
以码云为例,只需要把项目的整个packages文件夹下载下来。
2.2查看packages文件夹应该放在哪个路径下
使用以下代码,即可查看nltk的搜索路径。
import nltk
if __name__ == "__main__":
print(nltk.find("."))
例如,我的路径为:
下一步,就是解压文件(文件解压后,命名为nltk_data!!!),移动文件到/Users/luonaer路径下,替换掉已有的nltk_data文件夹。
执行成功后,应该如下图所示:
2.3验证是否安装成功
直接执行下方的代码,
from nltk.book import *
成功安装的话,会出现下图所示的输出。