python 中文nlp工具包 python的nlp

转载

ctaxnews 2023-06-21 16:19:54

1.在python中文本用链表来表示：['Monty','Pyton']。我们可以使用索引，分片和len()函数对链表进行操作。（文本在python中都是用链表表示）

2词“token”（标识符）是指文本中给定词的特定出现;词“type”类型则是指词作为一个特定序列字母的唯一形式。我们使用len(text)计数词的标识符计数词的标识符，使用len(set(text))计数词的类型。（len()统计的是文本的所有字符。len(set())去除了重复的）

3.我们使用sorted(set(t))获得文本t的词汇表。

4.我们使用[f(x) for x in text]对文本的每一项进行操作。

5.为了获得没有大小写区分和忽略标点符号的词汇表，我们可以使用set([w.lower() for w in text if w.isalpha() ])。（还有很多函数可以查API）

6.for和if控制语句，对文本中的每个词进行处理，如for with t:或者for word in text:或if len(word)<5。后面必须带冒号，换行缩进4格。

7.频率分布是项目连同他们的频率计数的集合。

8.函数是指定了名字并且可以重用的代码块。函数通过def关键字定义，例def mult(x,y)。

注：第一章中babelize_shell()和text3.gnerate()现在都不可用了，直接跳过。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客