IK Analysis for Elasticsearch The IK Analysis plugin integrates Lucene IK analyzer (http://code.google.com/p/ik-analyzer/) into elasticsearch, support customized dictionary. Analyzer: ik_smart , ik_ma
文章目录NLP基础——词表示和文本特征1. Word Representation: 独热编码,tf-idf2. Word2Vec2.1 Word Embedding2.2 Gaussian Embedding2.3 Contextual Embedding3. 文本特征工程 NLP基础——词表示和文本特征1. Word Representation: 独热编码,tf-idf词表示:0-1 on
在业务开发中,有一些面向C端的搜索接口。比如根据商品名搜索,之前也提过通过ES解决,但这次主要以一种较为简单快捷的方式优化搜索速度。
原创 2023-05-12 15:48:35
82阅读
在使用bert_wwm的时候 要基于句子的分词 结巴的分词是 有一些的问题的因为不是针对某一领域的 所以要制作某一领域内的词表
原创 2022-12-28 14:38:03
206阅读
(第一版,创建时间2014-11-12)这篇文档内容主要从官方文档中获取而来,对API进行了翻译,并依据个人使用经验进行了一些补充,鉴于能力有限、水平较低,文档中肯定存在有很多不足之处,还请见谅。下载地址:http://ictclas.nlpir.org/downloads, NLPIR是用C/C++编写的,如果要用JAVA来使用NLPIR,需要通过JNA调用NLPIR的函数来实现。下面
在使用bert_wwm的时候 要基于句子的分词 结巴的分词是 有一些的问题的因为不是针对某一领域的 所以要制作某一领域内的词表。先来一个示例:import jieba print("|".join(jieba.lcut("滴滴代驾不靠谱,在司机端总是接不到单子。"))) print("|".join(jieba.lcut("今天空车返回,在路上遇到行政执法,平台不派单"))) jieba.lo
原创 2021-12-01 11:40:53
837阅读
   还是接着Itenyh版-用HMM做中文分词四:A Pure-HMM 分词器文章中讲解的理论还实践。理论已经讲解得非常细致了,但是纸上得来终觉浅,自己动手的话感悟肯定又不一样。    继自己写中文分词之(二)的状态转移矩阵训练出来后,接着需要训练混淆矩阵了。具体的实现可以参考代码。     这里我重点说一下Jahmm这个工具的使用。
原创 2013-07-20 00:01:09
5949阅读
3点赞
8评论
一、什么是停用词?在汉语中,有一类没有实际意义的词语,比如组词“的”,连词“以及”,副词“甚至”,语气词“吧”,被称为停用词。一个句子去掉这些停用词,并不影响理解。所以,进行自然语言处理时,一般将停用词过滤掉。一般词表文件中每一行存储一个停用词,行数就是停用词个数。目前一些业界公开的中文停用词表如下表所示。当然,也可以根据任务的需求完全可以自我定制停用词表词表词表文件地址四川大学机器智能实验室
#mysql全文索引与停止词 /* 1.全文索引(FULLTEXT INDEX) FULLTEXT索引仅可用于MyISAM表,不可用于INNODB表 2.全文索引在mysql的默认情况下,对于中文意义不大 因为英文有空格,标点符号来拆成单词,进而对单词进行索引 而对于中文,没有空格来隔开单词,mysql无法识别每个中文词 中文分词并不是一件很简单的事情,真正能把中文分词这件事 情做好的公
转载 2024-04-05 12:39:57
39阅读
# 使用Python进行关键词分词的指南 在今天的这篇文章中,我们将学习如何使用Python对句子进行分词,尤其是根据给定的关键词表进行分词。整个流程大致分为几个步骤。我会用一个表格来展示这些步骤,并逐步解释每一步需要执行的操作和相关的代码。 ## 整体流程 | 步骤 | 描述 | |------|------------------
原创 10月前
48阅读
paip.提升分词---准确度--常用量词表作者Attilax  艾龙,  EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blog.csdn.net/attilax 脚,大,拨,造,等,边,立方公尺,天,盎司,公分,头,筐,筒,回事,平方英里,缕,缗,拳,路,筥,拍,处,拉,颗,担,点钟,拃,缸,册,通,班,脬,招,领
原创 2021-08-26 15:46:07
173阅读
用基本不等式解决极值问题:“当x是正实数时,求函数f(x)=x/(1+x^2)的最大值?”,并用Canvas绘制函数图线验证之。 【问题】当x是正实数时,求函数f(x)=x/(1+x^2)的最大值?【解答】解:f(x)=x/(1+x^2)=1/(x+1/x))<=1/2倍根号下(x*1/x)=1/2所以函数在[0,+∞)的区域最大值为0.5【函数图
转载 2024-09-11 19:47:41
39阅读
# 自然语言处理中的词表及其应用 自然语言处理(NLP)是计算机科学与语言学交叉的学科,它使得计算机能够理解、分析和生成人类语言。词表作为NLP中的基础组件之一,是将文本数据转换为可以进行计算的形式的重要工具。本文将介绍词表的概念、构建方法,并通过代码示例演示其应用,最后通过图示展示NLP项目的流程。 ## 1. 什么是词表词表(Vocabulary)是一个包含文本中所有唯一词语的集合。
原创 2024-10-17 13:42:28
359阅读
我们以英文文本处理为例。大致分为以下几个步骤:NormalizationTokenizationStop wordsPart-of-Speech TaggingNamed Entity RecognitionStemming and LemmatizationNormalization得到纯文本文件后,第一步通常做的就是 Normalization。在英语语言中,所有句子第一个词的首字母一般是大写
基于词表的中文分词​一、实验目的​了解并掌握基于匹配的分词方法,以及分词效果的评价方法。二、实验要求​实现正向最大匹配、逆向最大匹配以及双向最大匹配等三种分词方法,记录并分析三种方法的准确率以及分词速度。思考并分析哪些因素可能会影响分词的准确性。三、实验准备​1. 词典准备​在GitHub(​​https://github.com/fxsjy/jieba​​​)开源的一个中文词表数据,下载地址:​
原创 2023-03-09 11:16:45
1375阅读
1点赞
# 深入理解 NLP 中的词嵌入(Embedding) 自然语言处理(NLP)技术近年来发展迅速,其中一个关键的概念就是词嵌入(Word Embedding)。词嵌入是将词语映射到一个连续的向量空间中,使得具有相似意义的词在向量空间中也较为接近。本文将深入探讨词嵌入的原理、实现方式,以及相关示例代码,最后我们还会用序列图和类图来帮助理解。 ## 词嵌入的原理 词嵌入的基本思想是使用向量表示词
原创 2024-10-23 06:47:12
67阅读
对于任何处理内容的平台,管理敏感词过滤都是一项不可或缺的工作。在这个博客中,我们将深入探讨如何使用 MySQL 敏感词表来解决相关问题,并逐步走过实现过程。 ### 背景定位 在社交媒体、聊天应用和在线论坛等场景中,内容审查是一项重要功能。 MySQL 敏感词表就是为了对上传的内容进行过滤,确保这些内容不会包含任何不当言辞。 > “敏感词过滤就是根据事先设定的敏感词库,对用户输入的内容进行检
Python 使用习惯是指那些经常被使用的语法、语义和结构,这样写更加符合 Python 风格,看起来更像一个地道的 Pythoner.本系列目的,分类整理 Python 使用习惯。1. if not x直接使用 x 和 not x 判断 x 是否为 None 或空x = [1,3,5] if x: print('x is not empty ') if not x: prin
Part A: 词频统计的需求分析一、系统简介。      词频统计是一个在线统计一篇英文文档中的单词总个数,每个单词出现的次数的这样的一个统计系统。二、主要功能。      1. 上传文档。      2. 统计所有单词数目。 
" # $ & ' ( ) * + , - . / 0 1 2 3 4 5 6 7 8 9 : ; < = > ? @ [ ] _ } · × Δ Ψ γ μ φ В — ‘ ’ “ ” ℃ Ⅲ ↑ → ≈ ① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩ ■ ▲ 、 。 〉 《 》 」 『 』 【 】 〔 〕 ㈧ 一 上 下 不 与 且 个 临 为 乃 么 之 乎 乘 也 了 于 些
转载 2023-06-06 16:03:33
177阅读
  • 1
  • 2
  • 3
  • 4
  • 5