python 命令词汇 python词库

转载

mob6454cc692b0f 2023-06-26 14:16:07

一、jieba分词

jieba是一个功能十分强大的中文分词库

一般常用的分词方法有：全模式、精确模式、搜索引擎模式

str = '中国科学院，我想去北京故宫博物馆！'

1. 全模式

有冗余

all = ' '.join(jieba.cut(str,cut_all=True))

结果：中国中国科学院科学科学院学院我想去北京北京故宫故宫博物博物馆

2.精确模式

常用

acc = ' '.join(jieba.cut(str,cut_all=False))

结果：中国科学院，我想去北京故宫博物馆

3.搜索引擎模式

是个词就会分出来，冗余最大

all = ' '.join(jieba.cut_for_search(str))

结果：中国科学学院科学院中国科学院，我想去北京故宫北京故宫博物博物馆！

4.cut与lcut

jieba.cut生成的是一个生成器，generator，也就是可以通过for循环来取里面的每一个词

word_list= [word for word in jieba.cut(text)]

jieba.lcut 直接生成的就是一个list

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯