#coding=utf-8 ''' Created on 2017-12-11 jieba的主要功能 1.主要用于中文文本切词,如果碰到英文单词,也会以英文的默认形式切分 2.可以使用collections中的Counter对切词后的list进行一个topN操作获取最频繁词 3.提取关键词,提供了tf-idf和TextRank 切词注意事项: 1.使用jieba切词,如果发现有些词需要合并或者分
转载 2023-08-20 20:41:45
161阅读
jieba安装jieba是一个python开发的中文分词工具 安装方法:全自动安装:进入python安装路径,进入Scripts文件夹,使用easy_install或者pip安装半自动安装:先下载http://pypi.python.org/pypi/jieba/ ,解压后运行python setup.py install手动安装:将jieba目录放置于当前目录或者site-packages目录
转载 2023-12-01 14:47:19
84阅读
基于pythonjieba包的中文分词中详细使用(一)01.前言之前的文章中也是用过一些jieba分词但是基本上都是处于皮毛,现在就现有的python环境中对其官方文档做一些自己的理解以及具体的介绍。本文主要内容也是从官网文档中获取。02.jieba的介绍02.1 What “jieba” (Chinese for “to stutter”)Chiese text segmention:buil
相对于英语使用空格分隔开每个单词,中文是没有固定的分隔符来分开每个词语的,而大部分情况下词语却是进行NLP的基础,故在此使用jieba中文分词来对语句进行分词。jieba分词github上面的说明已经非常详细了,只要稍微有点python基础应该都可以按图索骥的照搬,建议大家照着api把jiaba分词的功能都试一遍,这样比看文字去猜要印象深刻,这里就不再copy过来水字数了<(* ̄▽ ̄*)/
转载 2024-01-02 12:39:46
50阅读
一、jieba功能用法1.cut函数用法jieba.cut(s,cut_all=False,HMM=True) #参数s为字符串;cut_all参数用来控制是否采用全模式;HMM参数为隐马尔科夫模型算法。(注:HMM实际上是一个双重随机过程:底层是马尔科夫模型的概率状态转移过程,另一重是从底层状态到表面观察值的随机过程;实质就是隐藏了状态的马尔科夫模型,模型状态不能直接看见只能观察到由状态到符号的
Python3 下载Python3 最新源码,二进制文档,新闻资讯等可以在 Python 的官网查看到: Python 官网:https://www.python.org/ 你可以在以下链接中下载 Python 的文档,你可以下载 HTML、PDF 和 PostScript 等格式的文档。 Python文档下载地址:https://www.python.org/doc/Python 安装Pytho
这一节主要介绍Python3的关键字。首先,通过使用import keyword我们可以看到python3的关键字列表。下面我们来看看这33个关键字的各种解释。True, FalseTrue和False主要是比较运算和逻辑运算的结果体现。例如NoneNone在Python中是一个特殊的实例(),代表着缺失值或者空值。当函数没有return声明的时候,函数将会返回Noneand, or, not只有
中文分词一般使用jieba分词1.安装1 pip install jieba2.大致了解jieba分词包括jieba分词的3种模式 全模式1 import jieba 2 3 seg_list = jieba.cut("我来到北京清华大学", cut_all=True, HMM=False) 4 print("Full Mode: " + "/ ".join(seg_list)) #
上期文章我们分享了NLP 自然语言处理的基础知识,本期我们分享几个比较流行的中文分词库,且这些中文分词库绝大部分是Java程序编写的,在linux系统上很容易使用,但是在windows环境下,如何使用python来使用这些分词库?? HanLPHanLP中文分词包HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完
import jiebaimport jieba.posseg as psegfrom nlp.db import MongoClientfrom nlp.config import *class Tokenizer(obje() # 去停词
原创 2022-10-28 12:08:01
176阅读
python3 安装jieba:pip3 install jieba或者,先下载 http://pypi.python.org/pypi/jieba/ ,解压
原创 2022-10-31 11:42:47
117阅读
一、jieba库概述jieba是优秀的中文分词第三方库中文文本需要通过分词获得单个的词语jieba是优秀的中文分词第三方库,需要额外安装jieba库提供三种分词模式,最简单只需要掌握一个函数二、jieba库安装cmd命令行下: pip install jieba三、jieba分词的原理jieba分词依靠中文词库利用一个中文词库,确定汉字之间的关联概率汉字间概率大的组成词组,形成分词结果四、jieb
前言python3的heapq模块提供了堆的数据结构(即优先队列)。索引一、堆排序二、基本push pop三、其他         1. 返回堆排序         2. push+pop组合操作    &nb
一.  检验权限模式#    os.access() 方法使用当前的uid/gid尝试访问路径。大部分操作使用有效的 uid/gid, 因此运行环境可以在 suid/sgid 环境尝试。path -- 要用来检测是否有访问权限的路径mode -- mode为F_OK,测试存在的路径,或者它可以是包含R_OK, W_OK和X_OK或者R_O
转载 2024-06-21 13:05:34
48阅读
# 字符串中常用的函数 string = 'qwertyuiopasdfghjbbbbbbbklzxcvbnm' # 1.find(sub,start,end)查找第一个匹配到的子字符串的起始位置 # sub 要查找位置的子字符串 start 开始查找的位置 # end 结束查找的位置 # 如果找到返回位置, 找不到返回-1 # index = string.find('lkjhs'
Python3 输入和输出输出格式美化Python两种输出值的方式: 表达式语句和 print() 函数。第三种方式是使用文件对象的 write() 方法,标准输出文件可以用 sys.stdout 引用。如果你希望输出的形式更加多样,可以使用 str.format() 函数来格式化输出值。如果你希望将输出的值转成字符串,可以使用 repr() 或 str() 函数来实现。str(): 函数返回一个
转载 2023-09-28 11:14:34
294阅读
Python 3 简介Python 3 是一种高级编程语言,可以运行在各种操作系统中。它是Guido van Rossum 在1989年底发布的,现在由 Python 软件基金会维护。Python 3 与其前身 Python 2 相比,有很多重要的改进和新特性。最明显的是 Python 3 在语法和标准库上有很多变化,这些变化使得 Python 3 更加现代化、易于学习和使用。为什么选择 Pyth
一、框架介绍    Newspaper是一个python3库,但是Newspaper框架并不适用于实际工程类新闻信息爬取工作,框架不稳定,爬取过程中会有各种bug,例如获取不到url、新闻信息等,但对于想获取一些新闻语料的朋友不妨一试,简单方便易上手,且不需要掌握太多关于爬虫方面的专业知识。安装方法:pip3 install news
转载 2023-12-26 12:33:35
101阅读
编码与解码详解:(1)Python2的默认编码是ascll,Python3 的默认编码是unicode。(2)编码和解码:编码:就是把str的数据类型转为bytes的数据类型的过程,使用到的关键字是encode  str→bytes解码: 把bytes的数据类型转为str的数据类型的过程,使用到的关键字是decode    bytes→strstr_bytes把str
转载 2023-08-01 16:09:21
188阅读
简单的概念与说明编码(动词):按照某种规则(这个规则称为:编码(名词))将“文本”转换为“字节流”。而在python 3中则表示:unicode变成str解码(动词):将“字节流”按照某种规则转换成“文本”。而在python3中则表示:str变成unicodePython中编码、解码与Unicode的联系字符串在Python内部的表示是Unicode编码,因此,在做编码转换时,通常需要以Unico
转载 2024-01-27 21:55:39
90阅读
  • 1
  • 2
  • 3
  • 4
  • 5