python判断词语属于什么分类 python判断中文词性

转载

mob6454cc75556b 2023-09-14 19:20:17

文章标签 python判断词语属于什么分类 python 分词词性中文分词 Python 词性标注 文章分类 Python 后端开发

分词及词性标注

在英文中，

计算机能够利用词语之间的空格来辨别每一个单词词语，

但是由连续中文文本组

成的汉语序列，

因为其词和词之间没有任何标识来进行划分，

所以计算机无法方便的直接进

行分词处理。

然而计算机在对语句进行处理分析的时，

由于对其的处理全部是以词语作为基

本语言单位的，

所以对语句进行分词处理从而成为离散的词语序列便是专利设计目标提取首

先要完成的内容。

面向中文语句的分词的研究在目前已经提出了十余种中文分词方法，

并成功研发了若干个相

关的系统组件，

目前基本可以将这些方法分为以词典为基础的方法和以知识规则为基础的方

法这两个类别，

以词典为基础的学习方法的代表有基于最大熵的方法、

基于隐马尔科夫模型

的方法等，以知识规则为基础的学习方法的代表有

N-

最短路径方法、最少切分法和最大匹

配算法等。

上述这些算法都有自己的不足之处，

其中现阶段面临的问题大致有两个，

其一是对未登录词

识别的问题，

这些词没有被中文分词词典收录，

所以当这些专业词汇在词法分析时，

它们的

识别率通常较低，往往不会被切分出来，

从而造成错误的出现；其二是歧义切分的问题，是

指如果依照不同的切分方法，那么即使是切分同一个语句，最后切分出的结果也会不同。

在对专利进行文本挖掘之前，

需要对专利的标题和摘要数据进行切分成词序列，

这是做文本

挖掘工作的开始。

目前，

开源中文分词工具有很多，

如张华平博士团队开发的

NLPIR

系统

(
C
、
Python
、
Java
)，哈王大的
LTP
语言平台(
C++
、
Python
)，还有
R

语言的分词包等，送些分

词工具都各具特色，

本文在此受篇幅所限不做巧细介绍。

本文采用结巴分词算法，

其主要原

因是它处理速度快，

分词准确，

并带有新词发现、

词性标注功能。

同时该算法功能可以通过

加载包的形式，加载进

Python

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：python读csv文件 UnicodeDecodeError python读csv文件需要装那个包

下一篇：digit在python中是什么意思 python中dir的作用

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

python判断词语属于什么分类 python判断中文词性

python判断词语属于什么分类 python判断中文词性

51CTO博客