字典1. 可变类型与不可变类型序列是以连续的整数为索引,与此不同的是,字典以"关键字"为索引,关键字可以是任意不可变类型,通常用字符串或数值。字典是 Python 唯一的一个 映射类型,字符串、元组、列表属于序列类型。那么如何快速判断一个数据类型 X 是不是可变类型的呢?两种方法:麻烦方法:用 id(X) 函数,对 X 进行某种操作,比较操作前后
转载 8月前
16阅读
首先去http://nltk.org/install.html下载相关的安装程序,然后 在cmd窗口中,进入到python的文件夹内的 Scripts内,运行easy_install pip 安装PyYAML and NLTK:pip install pyyaml nltk 这样就将nltk安装完成,安完可以测试下。 然后敲入下面的代码,进入NLTK数据源下载界面:import nltk nltk
转载 2023-07-02 19:01:56
216阅读
我们首先来加载我们自己的文本文件,并统计出排名前20的字符频率if __name__=="__main__": corpus_root='/home/zhf/word' wordlists=PlaintextCorpusReader(corpus_root,'.*') for w in wordlists.words(): print(w) fdis
自然语言处理(Natural Language Processing,NLP)是计算机科学与人工智能领域中一个重要的研究方向,旨在使计算机能够理解、解释、生成人类语言。在Python中,NLTK(Natural Language Toolkit)库是一个功能强大、广泛使用的自然语言处理库。本篇博客将深入介绍NLTK库的使用,包括分词、词性标注、命名实体识别、情感分析等常见任务,并通过实例演示其在实
3 使用Unicode进行文字处理Text Processing with Unicode1 what is unicode2 Extracting encoded text from files3 Regular Expressions for Detecting Word Patterns4 Normalizing Text5 Regular Expressions for Tokenizi
转载 2024-06-01 15:51:26
64阅读
几个基础函数 (1)搜索文本:text.concordance(word) 例如,在text1中搜索词”is”在文本中出现的次数以及上下文的词:text1.concordance("is") (2)搜索上下文相似的词:text.similar(word) 例如,在text1中搜索哪些相似的词出现在词
转载 2018-08-16 13:58:00
141阅读
2评论
安装nltk需要两步:安装nltk和安装nltk_data数据包安装nltk安装nltk很简单,可以直接在pycharm环境中安装,flie —> settings—> Python Interpreter —> 点击+ —> 搜索nltk —> intall Package接下来需要安装nltk_data数据包才能使用nltk手动安装nltk最简单的办法:在pych
转载 2023-08-23 17:12:42
2227阅读
一、简介1.Natural Language ToolKit(NLTK) 自然语言处理包:是一个用于自然语言处理和文本分析的综合性python库。用于NLP的研究和开发。2.NLTK 文档和API 可在http://text-processing.com. 查看。3.Tokenization(标记化)标记化是将字符串拆分成一个片段或标记列表的过程。一个符号是一个整体的一部分,所以一个单词是一个句子
# 字符串中常用的函数 string = 'qwertyuiopasdfghjbbbbbbbklzxcvbnm' # 1.find(sub,start,end)查找第一个匹配到的子字符串的起始位置 # sub 要查找位置的子字符串 start 开始查找的位置 # end 结束查找的位置 # 如果找到返回位置, 找不到返回-1 # index = string.find('lkjhs'
编码与解码详解:(1)Python2的默认编码是ascll,Python3 的默认编码是unicode。(2)编码和解码:编码:就是把str的数据类型转为bytes的数据类型的过程,使用到的关键字是encode  str→bytes解码: 把bytes的数据类型转为str的数据类型的过程,使用到的关键字是decode    bytes→strstr_bytes把str
转载 2023-08-01 16:09:21
188阅读
前言python3的heapq模块提供了堆的数据结构(即优先队列)。索引一、堆排序二、基本push pop三、其他         1. 返回堆排序         2. push+pop组合操作    &nb
Python3 输入和输出输出格式美化Python两种输出值的方式: 表达式语句和 print() 函数。第三种方式是使用文件对象的 write() 方法,标准输出文件可以用 sys.stdout 引用。如果你希望输出的形式更加多样,可以使用 str.format() 函数来格式化输出值。如果你希望将输出的值转成字符串,可以使用 repr() 或 str() 函数来实现。str(): 函数返回一个
转载 2023-09-28 11:14:34
294阅读
Python 3 简介Python 3 是一种高级编程语言,可以运行在各种操作系统中。它是Guido van Rossum 在1989年底发布的,现在由 Python 软件基金会维护。Python 3 与其前身 Python 2 相比,有很多重要的改进和新特性。最明显的是 Python 3 在语法和标准库上有很多变化,这些变化使得 Python 3 更加现代化、易于学习和使用。为什么选择 Pyth
一.  检验权限模式#    os.access() 方法使用当前的uid/gid尝试访问路径。大部分操作使用有效的 uid/gid, 因此运行环境可以在 suid/sgid 环境尝试。path -- 要用来检测是否有访问权限的路径mode -- mode为F_OK,测试存在的路径,或者它可以是包含R_OK, W_OK和X_OK或者R_O
转载 2024-06-21 13:05:34
48阅读
一、框架介绍    Newspaper是一个python3库,但是Newspaper框架并不适用于实际工程类新闻信息爬取工作,框架不稳定,爬取过程中会有各种bug,例如获取不到url、新闻信息等,但对于想获取一些新闻语料的朋友不妨一试,简单方便易上手,且不需要掌握太多关于爬虫方面的专业知识。安装方法:pip3 install news
转载 2023-12-26 12:33:35
101阅读
该文章描述了代码登陆界面之后如何保存cookie并且之后的访问继续使用cookie来进行访问的操作。主要使用库http.cookiejar,urllib.request(),urllib.parse 前言该文章描述了代码登陆界面之后如何保存cookie并且之后的访问继续使用cookie来进行访问的操作。主要使用库http.cookiejar,urllib
转载 2023-05-26 17:23:13
236阅读
# python 和pip 安装 root@Openwrt:/mnt# opkg install python3-base root@Openwrt:~# opkg install python3-pip root@Openwrt:~# opkg install python3 root@Openwrt:~# /usr/bin/python3 -m pip install -i https://p
转载 2023-07-24 20:52:25
321阅读
pydoc是python自带的一个文档生成工具,使用pydoc可以很方便的查看类和方法结构 本文主要介绍:1.查看文档的方法、2.html文档说明、 一、查看文档的方法方法1:启动本地服务,在web上查看文档命令【python3 -m pydoc -p 1234】 通过http://localhost:1234来访问查看文档 说明:1、-p指定启动的服务的端
转载 2023-07-06 15:28:21
223阅读
Python3+telnetlib实现telnet客户端 一、程序要点说明python实现telnet客户端的六个关键问题及其答案是:使用什么库实现telnet客户端----telnetlib怎么连接主机----两种方法,一种是在实例化时传入ip地址连接主机(tn = telnetlib.Telnet(host_ip,port=23)),第二种是,先不传参数进行实例化再用open方法连接主机(我
转载 2023-06-12 17:13:56
295阅读
官方文档见:https://docs.python.org/3/library/selectors.html  selectors模块  它封装了IO多路复用中的select和epoll,能够更快,更方便的实现多并发效果。1. 模块定义了一个 BaseSelector的抽象基类, 以及它的子类,包括:SelectSelector, PollSelector, EpollSele
转载 2023-10-07 13:45:33
169阅读
  • 1
  • 2
  • 3
  • 4
  • 5