前言随着前端项目的不断扩大,一个原本简单的网页应用所引用的js文件可能变得越来越庞大。尤其在近期流行的单页面应用中,越来越依赖一些打包工具(例如webpack),通过这些打包工具将需要处理、相互依赖的模块直接打包成一个单独的bundle文件,在页面第一次载入时,就会将所有的js全部载入。但是,往往有许多的场景,我们并不需要在一次性将单页应用的全部依赖都载下来。例如:我们现在有一个带有权限的"订单后
转载 3月前
371阅读
分词是搜索中最基本也是非常重要的一个功能,正确的分词是好的搜索效果的必要条件。1. 分词粒度分词中,最主要的问题是分词粒度问题。例如“射雕英雄传”,下面的几种分词方式,哪一种最正确?最细粒度分词:【射雕,英雄,传】正常粒度分词:【射雕,英雄传】最粗粒度分词:【射雕英雄传】混合粒度分词:【射雕,射雕英雄传,英雄,英雄传,传】上述4种都没有错,要根据具体的应用场景,来决定使用哪种分词方式。构建索引在构
转载 5月前
29阅读
115-mysql-高级篇-索引及调优篇:索引及调优篇1、索引的创建与设计原则1. 索引的声明与使用1.1 索引的分类从功能逻辑上说,索引主要有 4 种,分别是普通索引、唯一索引、主键索引、全文索引。按照物理实现方式,索引可以分为 2 种:聚簇索引和非聚簇索引。按照作用字段个数进行划分,分成单列索引和联合索引。1.2 创建索引CREATE TABLE table_name [col_name da
转载 11月前
104阅读
  Java Low Level REST Client: 低级别的REST客户端,通过http与集群交互,用户需自己编组请求JSON串,及解析响应JSON串。兼容所有ES版本。  Java High Level REST Client: 高级别的REST客户端,基于低级别的REST客户端,增加了编组请求JSON串、解析响应JSON串等相关api。使用的版本需要保持和ES服务端
转载 2024-10-24 07:17:50
67阅读
如果直接使用Elasticsearch的朋友在处理中文内容的搜索时,肯定会遇到很尴尬的问题——中文词语被分成了一个一个的汉字,当用Kibana作图的时候,按照term来分组,结果一个汉字被分成了一组。这是因为使用了Elasticsearch中默认的标准分词器,这个分词器在处理中文的时候会把中文单词切分成一个一个的汉字,因此引入中文的分词器就能解决这个问题。本篇文章按照下面的内容进行描述:分词器的作
转载 2024-08-05 21:58:41
246阅读
什么是IK分词器分词:把一段中文或者别的划分成一个一个的关键字,我们在搜索的时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词是将每个字看成一个词,比如"我爱魏一鹤"会被分成"我",“爱”,“魏”,“一”,“鹤”,这显然是不符合要求的,索引我们需要安装中文分词器IK来解决这个问题 如果要使用中文,建议使用ik分词器 IK提供了两个分词算法,i
HanLP: Han Language Processing 面向生产环境的多语种自然语言处理工具包(由一系列模型与算法组成的Java工具包),基于 TensorFlow 2.0,目标是普及落地最前沿的NLP技术。目前,基于深度学习的HanLP 2.0正处于alpha测试阶段,未来将实现知识图谱、问答系统、自动摘要、文本语义相似度、指代消解、三元组抽取、实体链接等功能。HanLP有如下功能:中文分
转载 2024-03-19 14:56:51
155阅读
摘要:本篇是本人在Solr的基础上,配置了中文分词器,并对其进行的性能测试总结,具体包括使用mmseg4j、IKAnalyzer、Ansj,分别从创建索引效果、创建索引性能、数据搜索效率等方面进行衡量。具体的Solr使用方法假设读者已有了基础,关于Solr的性能指标见前期的Solr博文。前提:Solr提供了一整套的数据检索方案,一台四核CPU、16G内存的机器,千兆网络。需求:1、对Solr创建索
转载 2023-11-03 12:52:17
102阅读
我们在搜索的时候,都会对数据进行分词,英文的分词很简单,我们可以直接按照空格进行切分即可,但是中文的分词太过复杂,例如:夏天太热,能穿多少穿多少,冬天太冷,能穿多少穿多少。下雨地滑,还好我一把把车把把住了,才没有摔倒。人要是行,干一行行一行,一行行行行行等等的分词都是非常麻烦的,所以针对中文的分词,专门出了一个叫做IK的分词器来解决对中文的分词问题。 安装每台机器都要配置。配置完成之后,
转载 2024-04-30 12:13:27
94阅读
   在实现了.Net版分词器之后,一直想进一步提升搜索速度和体验。最近又学习全切分分词以及IK分词原理,在理解其理念再加上结合本公司业务需求,决定改进分词器算法,宗旨为提升性能,提高体验。 对比原有分词: 基于词典的最长匹配: 基于词典分词的一种方法是将词典构建成一个Trie搜索树,每个节点放一个字,同时将词的信息放在Node中,如词性,权重等。
1、基本使用cut() cut(self, sentence, cut_all=False, HMM=True, use_paddle=False)sentence: 要切分的句子cut_all:全模式 默认关闭。HMM: 隐马尔可夫算法 默认开启。import jieba text="宁教我负天下人,休教天下人负我" # 基本使用 seg_1=jieba.cut(text) # 全模式 切
转载 2024-03-24 09:50:40
37阅读
前言 从本文开始,我们进入实战部分。首先,我们按照中文自然语言处理流程的第一步获取语料,然后重点进行中文分词的学习。中文分词有很多种,常见的比如有中科院计算所 NLPIR、哈工大 LTP、清华大学 THULAC 、斯坦福分词器、Hanlp 分词器、jieba 分词、IKAnalyzer 等。这里针对 jieba 和 HanLP 分别介绍不同场景下的中文分词应用。jieba 分词 jieba 安装
# 使用Java设置Elasticsearch分词器 作为一名经验丰富的开发者,我将指导你如何使用Java设置Elasticsearch(以下简称ES)的分词器。本文将分步骤介绍整个过程,并提供详细的代码示例和注释。 ## ES分词器设置流程 下面是整个设置ES分词器的流程。我们将使用Java代码来完成每个步骤。 ```mermaid erDiagram 开发者 --> 小白 :
原创 2024-02-05 07:46:44
234阅读
高级查询+分页查询结合一、高级查询+分页查询:0、把pageSize和currentPage封装到QueryObject对象(高级查询对象的基类,包含所有查询对象的共性)中 因为任何查询对象都需要接收用户传入的这两个数据class QueryObject { @Getter@Setter Integer currentPage = 1; @Getter@Setter Integer pag
转载 2024-10-25 17:29:57
42阅读
一、normalization 1、图例 2、Kibana 二、字符过滤器 1、html过滤器 2、字符过滤器 3、正则过滤器 三、令牌过滤器 1、同义词 文本指定同义词替换 1 PUT /test_index 2 { 3 "settings": { 4 "analysis": { 5 "filte ...
转载 2021-09-06 22:11:00
442阅读
2评论
# 实现ik分词器和hanlp分词器 ## 概述 在自然语言处理中,分词是一个重要的步骤,它将文本分割成一个个有意义的词语。ik分词器和hanlp分词器是常用的中文分词工具。本文将介绍如何使用这两个分词器。 ## 流程 下面是实现ik分词器和hanlp分词器的整个流程步骤: | 步骤 | 描述 | | --- | --- | | 1. 下载分词器相关文件 | 从官方网站下载ik分词器和han
原创 2023-12-20 13:08:40
249阅读
 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自然语言处理时,通常需要先进行分词。本文详细介绍现在非常流行的且开源的分词器结巴jieba分词器,并使用python实战介绍。jieba分词算法使用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG), 再采用了动态规划查找最大概率路径,找出基于词频的最大切分组
转载 2023-10-29 23:42:11
192阅读
什么是分词器 采用一种算法,将中英文本中的字符拆分开来,形成词汇,以待用户输入关健字后搜索 为什么要分词器 因为用户输入的搜索的内容是一段文本中的一个关健字,和原始表中的内容有差别, 但作为搜索引擎来讲,又得将相关的内容搜索出来,此时就得采用分词器来最大限度 匹配原始表中的内容 分词器工作流程 步一
原创 2021-08-13 10:12:47
262阅读
windows如何使用word2vec进行分词训练1、word2vec分词器运行一般都会在linux系统,所以在windows系统下,我们一般会借用其他工具,在这里我推荐两种。一种是xshell进行连接你的服务,在你的服务下进行linux命令操作,还有一种就是下载cygwin(地址:http://www.cygwin.com/install.html),在安装时注意:因为默认安装下没有安装ma
Lucene05-分词器 1、概念 Analyzer(分词器)的作用是把一段文本中的词按规则取出所包含的所有词。对应的是Analyzer类,这是一个抽象类,切分词的具体规则是由子类实现的,所以对于不同的语言(规则),要用不同的分词器。如下图 注意:在创建索引时会用到分词器,在使用字符串搜索时也会用到分词器,这两个地方要使用同一个分词器,否则可能会搜索不出结果。所以当改变分词器
转载 2023-11-27 06:42:25
144阅读
  • 1
  • 2
  • 3
  • 4
  • 5