就加了个数据集合就政治了吗
原创
2021-10-08 10:12:56
10000+阅读
就加了个数据集合就政治了吗
原创
2022-01-26 11:17:02
393阅读
还是接着Itenyh版-用HMM做中文分词四:A Pure-HMM 分词器文章中讲解的理论还实践。理论已经讲解得非常细致了,但是纸上得来终觉浅,自己动手的话感悟肯定又不一样。 继自己写中文分词之(二)的状态转移矩阵训练出来后,接着需要训练混淆矩阵了。具体的实现可以参考代码。 这里我重点说一下Jahmm这个工具的使用。
转载
2024-06-21 09:22:25
20阅读
汉语中句子以字为单位的,但语义理解仍是以词为单位,所以也就存在中文分词问题。主要的技术可以分为:规则分词、统计分词以及混合分词(规则+统计)。基于规则的分词是一种机械分词,主要依赖于维护词典,在切分时将与剧中的字符串与词典中的词进行匹配。主要包括正向最大匹配法、逆向最大匹配法以及双向最大匹配法。统计分词主要思想是将每个词视作由字组成,如果相连的字在不同文本中出现次数越多,就越可能是一个词。(隐马尔
转载
2024-01-26 22:39:47
177阅读
最近我在学习自然语言处理,相信大家都知道NLP的第一步就是学分词,但分词≠自然语言处理。现如今分词工具及如何使用网上一大堆。我想和大家分享的是结巴分词核心内容,一起探究分词的本质。(1)、基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图什么是DAG(有向无环图)?例如,句子“去北京大学玩”对应的DAG为{0:[0], 1:[1,2,4], 2:[2], 3:[3,4
转载
2023-08-08 13:58:17
54阅读
1. 首先来说一下马尔科夫链。一个事件序列发生的概率可以用下面的概率论里面的乘法公式展开P(w1,w2,…wn) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1)乘法公式的证明非常有意思,它本身就是一个递推的过程,根据条件概率的定义:P(A|B) = P(AB)/ P(B)那么 P(AB) = P(A|B) X P(B),由此可得:P(w1,w2
转载
2015-01-04 14:46:00
110阅读
2评论
分词是自然语言处理的一个基本工作,中文分词和英文不同,字词之间没有空格。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。文件:url80.ctfile.com/f/25127180-560486350
转载
2023-07-25 13:26:53
110阅读
前几天因为好久没发blog了,就拿我毕设中的一段算法凑数,没想到引起很多人的兴趣。因此就把我的分词算法单独拎出来做了一个项目叫作DartSplitter。暂时把分词算法的名称叫做树状词库分词法。 刚刚统计了一下源代码,一共也就950多行代码,加上测试用例共1200行代码。看来确实还是想法比实现重要。说明如下:1、由于不能用原来的专业词库,因此我特地去网上找了个Access的词库,一共有一
转载
2024-09-29 00:32:52
26阅读
前言 在浅谈分词算法(1)分词中的基本问题我们讨论过基于词典的分词和基于字的分词两大类,在浅谈分词算法(2
原创
2022-11-14 18:04:58
135阅读
分词算法模型学习笔记(一)——HMMHidden Markov Model(HMM,隐马尔科夫模型) 1.HMM的特点生成式模型主要研究观察序列X和隐藏状态序列Y的联合概率分布P(X,Y) 通常为一阶马尔卡夫过程(即当前状态的概率分布只跟前一个状态有关) P(X,Y)=P(Y)P(X|Y)=∏tP(Yt|Yt−1)P(Xt|Yt) HMM模型图示2.HMM的三个基本用途1.评估(比如语音识别)
转载
2024-08-08 21:26:21
89阅读
# 基于HMM模型实现中文分词
在自然语言处理中,中文分词是一个重要的任务。在这篇文章中,我们将介绍如何基于隐马尔可夫模型(HMM)实现中文分词。整个过程分为几个基本步骤,下面将用表格展示每个步骤。
| 步骤 | 描述 |
|------|-------------------------------
关于HMM分词的理论基础就不说了,第一,自己能力尚浅,说不好。第二,已经有说得很好的了。参考:Itenyh版-用HMM做中文分词四:A Pure-HMM 分词器 我这里自己实现了用msr_training.utf8 用以训练HMM的转移矩阵。代码贴出来吧:package com.xh.training;
import java.i
原创
2013-07-17 23:56:28
6441阅读
还是接着Itenyh版-用HMM做中文分词四:A Pure-HMM 分词器文章中讲解的理论还实践。理论已经讲解得非常细致了,但是纸上得来终觉浅,自己动手的话感悟肯定又不一样。 继自己写中文分词之(二)的状态转移矩阵训练出来后,接着需要训练混淆矩阵了。具体的实现可以参考代码。 这里我重点说一下Jahmm这个工具的使用。
原创
2013-07-20 00:01:09
5949阅读
点赞
8评论
目录 相关原理爬虫:从网上爬取数据,我使用的是Urllib库分词:本次实验使用的是结巴分词,我们需要先导入 jieba的库。词云:设计思想 实现过程 结果 相关原理爬虫:从网上爬取数据,我使用的是Urllib库其语法如下,在本次实验中只使用了参数url。 在发送请求后,网站会返回相应的响应内容。urlopen对象提供获取网站响应内容的方法函数:分词
转载
2024-04-28 12:12:32
31阅读
http://www.hankcs.com/nlp/hmm-and-segmentation-tagging-named-entity-recognition.htmlHMM(隐马尔可夫模型)是用来描述隐含未知参数的统计模型,举一个经典的例子:一个东京的朋友每天根据天气{下雨,天晴}决定当天的活动{...
转载
2015-01-14 17:15:00
331阅读
2评论
1. 赛题理解:1.1 赛题理解:(1)赛题名称: 零基础入门NLP之新闻文本分类(2) 赛题目标: 通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建 和 模型训练等知识点;(3) 赛题任务: 赛题以自然语言处理为背景、要求选手对新闻文本进行分类,这是一个典型的字符识别问题;1.1.1 学习目标:(1) 理解赛题背景 与 赛题数据;(2) 完成赛题报名 与 数据下
## 隐马尔可夫模型(HMM)介绍与Java实现
### 引言
隐马尔可夫模型(Hidden Markov Model,HMM)是一种经典的统计模型,被广泛应用于自然语言处理、语音识别、生物信息学等领域。HMM能够从观测序列中学习出隐藏的状态序列,并用于模式识别和预测。
本文将介绍HMM的基本概念、数学原理,并给出Java实现的代码示例,帮助读者理解和应用HMM模型。
### 隐马尔可夫模
原创
2023-08-09 10:07:34
34阅读
这种预连接的流通常有标准输入,标准输出和标准错误流。最常见的实现了编解码功能的就是我们常说的标准流,Java编程中我们从java.system中能够看到in,out,err等标准I/O流的定义。标准输入默认从键盘读取它的输入。标准输出和标准错误默认将它们的输出到屏幕上。数据流的分类======说到数据流就不得不说我们常见的数据流类型,通常我们处理的数据主要分为两种类型,一种是基于文件存储块的块类型
https://www.jianshu.com/p/eccb9eb9a921 https://www.jianshu.com/p/b7758d4a59ca
转载
2020-03-07 17:04:00
94阅读
2评论
http://blog.sina.com.cn/s/blog_46ed82810100cgwb.html
彻底搞定C指针-const int * pi/int * const pi的区别
http://www.qnr.cn/pc/lin/study/201008/521819.html
Linux系统内存监控全面讲解之free命令
http://www.qnr.cn/pc/
原创
2011-10-05 17:59:03
561阅读