IK Analysis for Elasticsearch
The IK Analysis plugin integrates Lucene IK analyzer (http://code.google.com/p/ik-analyzer/) into elasticsearch, support customized dictionary.
Analyzer: ik_smart , ik_ma
文章目录NLP基础——词表示和文本特征1. Word Representation: 独热编码,tf-idf2. Word2Vec2.1 Word Embedding2.2 Gaussian Embedding2.3 Contextual Embedding3. 文本特征工程 NLP基础——词表示和文本特征1. Word Representation: 独热编码,tf-idf词表示:0-1 on
转载
2024-05-16 10:15:52
88阅读
在业务开发中,有一些面向C端的搜索接口。比如根据商品名搜索,之前也提过通过ES解决,但这次主要以一种较为简单快捷的方式优化搜索速度。
原创
2023-05-12 15:48:35
82阅读
在使用bert_wwm的时候 要基于句子的分词 结巴的分词是 有一些的问题的因为不是针对某一领域的 所以要制作某一领域内的词表。
原创
2022-12-28 14:38:03
206阅读
(第一版,创建时间2014-11-12)这篇文档内容主要从官方文档中获取而来,对API进行了翻译,并依据个人使用经验进行了一些补充,鉴于能力有限、水平较低,文档中肯定存在有很多不足之处,还请见谅。下载地址:http://ictclas.nlpir.org/downloads, NLPIR是用C/C++编写的,如果要用JAVA来使用NLPIR,需要通过JNA调用NLPIR的函数来实现。下面
转载
2024-03-14 12:05:51
48阅读
在使用bert_wwm的时候 要基于句子的分词 结巴的分词是 有一些的问题的因为不是针对某一领域的 所以要制作某一领域内的词表。先来一个示例:import jieba print("|".join(jieba.lcut("滴滴代驾不靠谱,在司机端总是接不到单子。"))) print("|".join(jieba.lcut("今天空车返回,在路上遇到行政执法,平台不派单"))) jieba.lo
原创
2021-12-01 11:40:53
837阅读
还是接着Itenyh版-用HMM做中文分词四:A Pure-HMM 分词器文章中讲解的理论还实践。理论已经讲解得非常细致了,但是纸上得来终觉浅,自己动手的话感悟肯定又不一样。 继自己写中文分词之(二)的状态转移矩阵训练出来后,接着需要训练混淆矩阵了。具体的实现可以参考代码。 这里我重点说一下Jahmm这个工具的使用。
原创
2013-07-20 00:01:09
5949阅读
点赞
8评论
一、什么是停用词?在汉语中,有一类没有实际意义的词语,比如组词“的”,连词“以及”,副词“甚至”,语气词“吧”,被称为停用词。一个句子去掉这些停用词,并不影响理解。所以,进行自然语言处理时,一般将停用词过滤掉。一般词表文件中每一行存储一个停用词,行数就是停用词个数。目前一些业界公开的中文停用词表如下表所示。当然,也可以根据任务的需求完全可以自我定制停用词表。词表名词表文件地址四川大学机器智能实验室
转载
2024-07-12 16:22:04
57阅读
#mysql全文索引与停止词
/*
1.全文索引(FULLTEXT INDEX) FULLTEXT索引仅可用于MyISAM表,不可用于INNODB表
2.全文索引在mysql的默认情况下,对于中文意义不大
因为英文有空格,标点符号来拆成单词,进而对单词进行索引
而对于中文,没有空格来隔开单词,mysql无法识别每个中文词
中文分词并不是一件很简单的事情,真正能把中文分词这件事
情做好的公
转载
2024-04-05 12:39:57
39阅读
# 使用Python进行关键词分词的指南
在今天的这篇文章中,我们将学习如何使用Python对句子进行分词,尤其是根据给定的关键词表进行分词。整个流程大致分为几个步骤。我会用一个表格来展示这些步骤,并逐步解释每一步需要执行的操作和相关的代码。
## 整体流程
| 步骤 | 描述 |
|------|------------------
paip.提升分词---准确度--常用量词表作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blog.csdn.net/attilax 脚,大,拨,造,等,边,立方公尺,天,盎司,公分,头,筐,筒,回事,平方英里,缕,缗,拳,路,筥,拍,处,拉,颗,担,点钟,拃,缸,册,通,班,脬,招,领
原创
2021-08-26 15:46:07
173阅读
用基本不等式解决极值问题:“当x是正实数时,求函数f(x)=x/(1+x^2)的最大值?”,并用Canvas绘制函数图线验证之。
【问题】当x是正实数时,求函数f(x)=x/(1+x^2)的最大值?【解答】解:f(x)=x/(1+x^2)=1/(x+1/x))<=1/2倍根号下(x*1/x)=1/2所以函数在[0,+∞)的区域最大值为0.5【函数图
转载
2024-09-11 19:47:41
39阅读
# 自然语言处理中的词表及其应用
自然语言处理(NLP)是计算机科学与语言学交叉的学科,它使得计算机能够理解、分析和生成人类语言。词表作为NLP中的基础组件之一,是将文本数据转换为可以进行计算的形式的重要工具。本文将介绍词表的概念、构建方法,并通过代码示例演示其应用,最后通过图示展示NLP项目的流程。
## 1. 什么是词表?
词表(Vocabulary)是一个包含文本中所有唯一词语的集合。
原创
2024-10-17 13:42:28
359阅读
我们以英文文本处理为例。大致分为以下几个步骤:NormalizationTokenizationStop wordsPart-of-Speech TaggingNamed Entity RecognitionStemming and LemmatizationNormalization得到纯文本文件后,第一步通常做的就是 Normalization。在英语语言中,所有句子第一个词的首字母一般是大写
转载
2024-09-06 10:35:40
107阅读
基于词表的中文分词一、实验目的了解并掌握基于匹配的分词方法,以及分词效果的评价方法。二、实验要求实现正向最大匹配、逆向最大匹配以及双向最大匹配等三种分词方法,记录并分析三种方法的准确率以及分词速度。思考并分析哪些因素可能会影响分词的准确性。三、实验准备1. 词典准备在GitHub(https://github.com/fxsjy/jieba)开源的一个中文词表数据,下载地址:
原创
2023-03-09 11:16:45
1375阅读
点赞
# 深入理解 NLP 中的词嵌入(Embedding)
自然语言处理(NLP)技术近年来发展迅速,其中一个关键的概念就是词嵌入(Word Embedding)。词嵌入是将词语映射到一个连续的向量空间中,使得具有相似意义的词在向量空间中也较为接近。本文将深入探讨词嵌入的原理、实现方式,以及相关示例代码,最后我们还会用序列图和类图来帮助理解。
## 词嵌入的原理
词嵌入的基本思想是使用向量表示词
原创
2024-10-23 06:47:12
67阅读
对于任何处理内容的平台,管理敏感词过滤都是一项不可或缺的工作。在这个博客中,我们将深入探讨如何使用 MySQL 敏感词表来解决相关问题,并逐步走过实现过程。
### 背景定位
在社交媒体、聊天应用和在线论坛等场景中,内容审查是一项重要功能。 MySQL 敏感词表就是为了对上传的内容进行过滤,确保这些内容不会包含任何不当言辞。
> “敏感词过滤就是根据事先设定的敏感词库,对用户输入的内容进行检
Python 使用习惯是指那些经常被使用的语法、语义和结构,这样写更加符合 Python 风格,看起来更像一个地道的 Pythoner.本系列目的,分类整理 Python 使用习惯。1. if not x直接使用 x 和 not x 判断 x 是否为 None 或空x = [1,3,5]
if x:
print('x is not empty ')
if not x:
prin
Part A: 词频统计的需求分析一、系统简介。 词频统计是一个在线统计一篇英文文档中的单词总个数,每个单词出现的次数的这样的一个统计系统。二、主要功能。 1. 上传文档。 2. 统计所有单词数目。
"
#
$
&
'
(
)
*
+
,
-
.
/
0
1
2
3
4
5
6
7
8
9
:
;
<
=
>
?
@
[
]
_
}
·
×
Δ
Ψ
γ
μ
φ
В
—
‘
’
“
”
℃
Ⅲ
↑
→
≈
①
②
③
④
⑤
⑥
⑦
⑧
⑨
⑩
■
▲
、
。
〉
《
》
」
『
』
【
】
〔
〕
㈧
一
上
下
不
与
且
个
临
为
乃
么
之
乎
乘
也
了
于
些
转载
2023-06-06 16:03:33
177阅读