jieba与hanlp原理

原创

mob64ca12e95b2b 2023-11-26 11:59:40 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12e95b2b的原创作品，请联系作者获取转载授权，否则将追究法律责任

jieba与hanlp原理及代码示例

引言

在自然语言处理（NLP）领域，分词是一个重要的任务。分词就是将给定的文本序列切分成词语的过程。中文分词是一个相对复杂的任务，因为中文没有明确的词语边界，一个字符可能对应一个词，也可能是多个词的组合。jieba和hanlp是两个常用的中文分词工具，本文将介绍它们的原理和代码示例。

jieba原理

jieba是一款基于字典的中文分词工具，采用了基于前缀词典的正向最大匹配算法。具体来说，jieba将待分词的文本按照最大匹配原则进行切分，初始时每个字符都被认为是一个词语，然后从最长的词语开始匹配，如果匹配成功，则将该词语输出，并从待切分的文本中删除该词语，然后继续从剩余的文本中匹配下一个最长的词语，直到文本被切分完毕。

jieba代码示例

下面是使用jieba进行中文分词的代码示例：

import jieba

text = "我爱自然语言处理"
seg_list = jieba.cut(text, cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))

seg_list = jieba.cut(text, cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))

seg_list = jieba.cut_for_search(text)
print("Search Engine Mode: " + ", ".join(seg_list))

输出结果如下：

Default Mode: 我/ 爱/ 自然/ 语言/ 处理
Full Mode: 我/ 爱/ 自然/ 自然语言/ 语言/ 处理
Search Engine Mode: 我/ 爱/ 自然/ 语言/ 处理/ 自然语言/ 自然语/ 语言处理

hanlp原理

hanlp是一款开源的NLP工具包，其中包含了中文分词、词性标注、命名实体识别等多个功能。hanlp采用了基于条件随机场（CRF）的序列标注算法进行分词。CRF是一种统计模型，它考虑了当前词语和上下文之间的关系，通过训练模型来预测每个词语的边界。

hanlp代码示例

下面是使用hanlp进行中文分词的代码示例：

from pyhanlp import *
import jpype

# 初始化HanLP
HanLP = jpype.JClass('com.hankcs.hanlp.HanLP')
tokenizer = HanLP.newSegment()

text = "我爱自然语言处理"
segments = tokenizer.seg(text)
for term in segments:
    print(term.word)

输出结果如下：

我
爱
自然语言
处理

状态图

下面是jieba中基于前缀词典的正向最大匹配算法的状态图示例：

stateDiagram
    [*] --> Init
    Init --> Match
    Match --> Output
    Output --> [*]
    Match --> Delete
    Delete --> Match

类图

下面是hanlp中的分词类Segment的类图示例：

classDiagram
    class Segment {
        +seg(text: str): List[str]
    }
    class HanLP {
        +newSegment(): Segment
    }
    Segment --|> HanLP