最近我在学习自然语言处理,相信大家都知道NLP的第一步就是学分词,但分词≠自然语言处理。现如今分词工具及如何使用网上一大堆。我想和大家分享的是结巴分词核心内容,一起探究分词的本质。(1)、基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图什么是DAG(有向无环图)?例如,句子“去北京大学玩”对应的DAG为{0:[0], 1:[1,2,4], 2:[2], 3:[3,4
汉语中句子以字为单位的,但语义理解仍是以词为单位,所以也就存在中文分词问题。主要的技术可以分为:规则分词、统计分词以及混合分词(规则+统计)。基于规则的分词是一种机械分词,主要依赖于维护词典,在切分时将与剧中的字符串与词典中的词进行匹配。主要包括正向最大匹配法、逆向最大匹配法以及双向最大匹配法。统计分词主要思想是将每个词视作由字组成,如果相连的字在不同文本中出现次数越多,就越可能是一个词。(隐马尔
转载 2024-01-26 22:39:47
177阅读
分词是自然语言处理的一个基本工作,中文分词和英文不同,字词之间没有空格。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。文件:url80.ctfile.com/f/25127180-560486350
就加了个数据集合就政治了吗
原创 2021-10-08 10:12:56
10000+阅读
就加了个数据集合就政治了吗
原创 2022-01-26 11:17:02
393阅读
   还是接着Itenyh版-用HMM做中文分词四:A Pure-HMM 分词器文章中讲解的理论还实践。理论已经讲解得非常细致了,但是纸上得来终觉浅,自己动手的话感悟肯定又不一样。    继自己写中文分词之(二)的状态转移矩阵训练出来后,接着需要训练混淆矩阵了。具体的实现可以参考代码。     这里我重点说一下Jahmm这个工具的使用。
转载 2024-06-21 09:22:25
20阅读
前几天因为好久没发blog了,就拿我毕设中的一段算法凑数,没想到引起很多人的兴趣。因此就把我的分词算法单独拎出来做了一个项目叫作DartSplitter。暂时把分词算法的名称叫做树状词库分词法。 刚刚统计了一下源代码,一共也就950多行代码,加上测试用例共1200行代码。看来确实还是想法比实现重要。说明如下:1、由于不能用原来的专业词库,因此我特地去网上找了个Access的词库,一共有一
1.       首先来说一下马尔科夫链。一个事件序列发生的概率可以用下面的概率论里面的乘法公式展开P(w1,w2,…wn) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1)乘法公式的证明非常有意思,它本身就是一个递推的过程,根据条件概率的定义:P(A|B) = P(AB)/ P(B)那么 P(AB) = P(A|B) X P(B),由此可得:P(w1,w2
转载 2015-01-04 14:46:00
110阅读
2评论
# 基于HMM模型实现中文分词 在自然语言处理中,中文分词是一个重要的任务。在这篇文章中,我们将介绍如何基于隐马尔可夫模型(HMM)实现中文分词。整个过程分为几个基本步骤,下面将用表格展示每个步骤。 | 步骤 | 描述 | |------|-------------------------------
原创 10月前
122阅读
前言 在浅谈分词算法(1)分词中的基本问题我们讨论过基于词典的分词和基于字的分词两大类,在浅谈分词算法(2
原创 2022-11-14 18:04:58
135阅读
目录 相关原理爬虫:从网上爬取数据,我使用的是Urllib库分词:本次实验使用的是结巴分词,我们需要先导入 jieba的库。词云:设计思想 实现过程 结果 相关原理爬虫:从网上爬取数据,我使用的是Urllib库其语法如下,在本次实验中只使用了参数url。 在发送请求后,网站会返回相应的响应内容。urlopen对象提供获取网站响应内容的方法函数:分词
转载 2024-04-28 12:12:32
31阅读
分词算法模型学习笔记(一)——HMMHidden Markov Model(HMM,隐马尔科夫模型) 1.HMM的特点生成式模型主要研究观察序列X和隐藏状态序列Y的联合概率分布P(X,Y) 通常为一阶马尔卡夫过程(即当前状态的概率分布只跟前一个状态有关) P(X,Y)=P(Y)P(X|Y)=∏tP(Yt|Yt−1)P(Xt|Yt) HMM模型图示2.HMM的三个基本用途1.评估(比如语音识别)
问题:什么是马尔科夫模型?用来干什么?大家可以参考这篇简书python 实现关于HMM有两个主要问题:已知上述三个参数,和当前观测序列,求解隐藏状态的变化所有参数未知,只有数据,如何获得三个参数需要使用hmmlearn 包导入需要的库import random import datetime # 可有可无,用来记录模型学习时间, import numpy as np from hmmlearn i
文章参照# coding=utf-8 import re import numpy as np class Hmm(object): def __init__(self, train_path): self.train_path = train_path self.clean_data() def clean_data(self):
转载 2023-06-21 10:36:06
43阅读
   关于HMM分词的理论基础就不说了,第一,自己能力尚浅,说不好。第二,已经有说得很好的了。参考:Itenyh版-用HMM做中文分词四:A Pure-HMM 分词器    我这里自己实现了用msr_training.utf8  用以训练HMM的转移矩阵。代码贴出来吧:package com.xh.training; import java.i
原创 2013-07-17 23:56:28
6441阅读
引言最近再参加网页设计大赛,任务量都在网页设计和网页修改,以至于落了好多天学习大数据的知识。今天比赛结束,正好写一篇网页大赛用到的技术正文我们做的是一个豆瓣top250数据分析的一个网页,其中有一项技术是用到了词云,今天正好把这项技术说说。具体怎么做的呢,首先我们先爬取了豆瓣top250 220条关于某个电影的短评,然后将短评存到数据库,读取数据库,将关于该部电影的短评组成一句话,进行jieba分
转载 2023-08-08 16:10:59
79阅读
   还是接着Itenyh版-用HMM做中文分词四:A Pure-HMM 分词器文章中讲解的理论还实践。理论已经讲解得非常细致了,但是纸上得来终觉浅,自己动手的话感悟肯定又不一样。    继自己写中文分词之(二)的状态转移矩阵训练出来后,接着需要训练混淆矩阵了。具体的实现可以参考代码。     这里我重点说一下Jahmm这个工具的使用。
原创 2013-07-20 00:01:09
5949阅读
3点赞
8评论
1. 赛题理解:1.1 赛题理解:(1)赛题名称: 零基础入门NLP之新闻文本分类(2) 赛题目标: 通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建 和 模型训练等知识点;(3) 赛题任务: 赛题以自然语言处理为背景、要求选手对新闻文本进行分类,这是一个典型的字符识别问题;1.1.1 学习目标:(1) 理解赛题背景 与 赛题数据;(2) 完成赛题报名 与 数据下
http://www.hankcs.com/nlp/hmm-and-segmentation-tagging-named-entity-recognition.htmlHMM(隐马尔可夫模型)是用来描述隐含未知参数的统计模型,举一个经典的例子:一个东京的朋友每天根据天气{下雨,天晴}决定当天的活动{...
转载 2015-01-14 17:15:00
331阅读
2评论
# 使用Python实现HMM模型:从入门到实践 隐马尔可夫模型(HMM)是一种用于分析时间序列数据的概率模型。作为新手开发者,你可能会对如何在Python中实现HMM感到困惑。本文将详细展示如何使用Python的`hmmlearn`包实现HMM,并提供一系列清晰的步骤和代码示例。 ## 整体流程 下面是使用Python进行HMM建模的整体流程: | 步骤编号 | 步骤名称
原创 2024-08-31 09:22:02
108阅读
  • 1
  • 2
  • 3
  • 4
  • 5