我们常常会遇到问题,为什么指定的文档没有被搜索到。很多情况下, 这都归因于映射的定义和分析例程配置存在问题。针对分析过程的调试,ElasticSearch提供了专用的REST API。_analyze, _explain是Elasticsearch提供的辅助API,经常不为人所知和所用。_explain 用来帮助分析文档的relevance score是如何计算出来的,而_analyze
# Java HanLP 添加词库 ## 1. 什么是HanLP [HanLP]( ## 2. 添加自定义词库 HanLP默认提供了一些常用的词库,但在实际应用中,我们可能需要根据特定需求添加自定义词库。下面我们来演示如何通过Java代码向HanLP添加自定义词库。 首先创建一个文本文件`custom.txt`,将需要添加的自定义词汇按照以下格式写入: | 词汇 | 词性
原创 2024-07-11 04:13:11
138阅读
在使用Hanlp词典或者jieba词典进行分词的时候,会出现分词不准的情况,原因是内置词典中并没有收录当前这个词,也就是我们所说的未登录词,只要把这个词加入到内置词典中就可以解决类似问题,如何操作呢,下面我们来看一下:一,在Hanlp词典中添加未登录词 1.找到hanlp内置词典目录 位于D:\hnlp\hanlp_code\hanlp\data\dictionary\custom也就是Hanlp
安装jieba库:pip3 install jieba #结巴分词 # -*- coding:utf-8 -*- import sys import os import jiebasent = '天善智能是一个专注于商业智能BI、数据分析、数据挖掘和大数据技术领域的技术社区 www.hellobi.com 。内容从最初的商业智能 BI 领域也扩充到了数据分析、数据挖掘和大数据相关 的技术领域,包括
我在之前写过一个小程序,用于实现QQ拼音、搜狗拼音、谷歌拼音和百度手机拼音输入法词库的互转,本来我只是出于从将个人的词库从QQ拼音导入到搜狗拼音中,随手写的个小程序,结果哪知道原来大家都有和我类似的需求,希望实现各种输入法词库的相互转换;另外现在智能手机越来越多,在手机上的输入法也竞争相当激烈,QQ手机拼音、搜狗手机拼音、百度手机拼音等输入法都出来的,有些手机输入法也支持词库的导入导出,所以也用得
一、jieba 库简介 (1) jieba 库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组;除此之外,jieba 库还提供了增加自定义中文单词的功能。(2) jieba 库支持3种分词模式:精确模式:将句子最精确地切开,适合文本分析。全模式:将句子中所以可以成词的词语都扫描出来,速度非常快,但是不
总进度今天我们来学习Elasticsearch中的动态模版,其实我们在第一课2.2.3章节中就已经学过了类似的了,链接如下根据给定的需求创建索引但是今天咱们学点不一样的,上次只是简单的使用,这次咱要深入理解,完美掌控才是第一目标,废话少说,下面开始什么是动态模版动态模版允许我们控制动态字段映射规则之外的数据动态字段的映射我们可以设置dynamic参数为true或者runtime来启用动态映射,也可
转载 2024-10-14 10:10:58
56阅读
首先介绍一下词典软件。目前最流行的还是有道词典、金山词霸等app。但是这些app在专业性和权威性上又有所不足。而Mdcit系列词典可以添加各种自定义词库,而且很多网友已经制作好了很多权威词典对应的Mdict词库(见Pdawiki与FreeMdict)。而对于自己最常使用的macOS,支持Mdict词库的GoldenDict开发进度缓慢,界面不太好看,有时会遇到Bug。而另一款欧路词典需要收费才能添
转载 2024-05-23 16:06:49
272阅读
今天我们来学习Elasticsearch中的动态模版,其实我们在第一课2.2.3章节中就已经学过了类似的了,链接如下根据给定的需求创建索引但是今天咱们学点不一样的,上次只是简单的使用,这次咱要深入理解,完美掌控才是第一目标,废话少说,下面开始什么是动态模版动态模版允许我们控制动态字段映射规则之外的数据动态字段的映射我们可以设置dynamic参数为true或者runtime来启用动态映射,也可以自定
jieba分词源码分析jieba分词是开源的中文分词库,里面包含了分词,核心词提取等功能,使用范围非常广。下面介绍一下jieba分词的源码,方便之后查找回忆。1:前缀词典基于词典的切词方法需要一个好的语料库,jieba分词的作者在这里https://github.com/fxsjy/jieba/issues/7描述了语料库来源,主要来源于人民日报的语料库。初始化时会根据原始语料库生成前缀词典,可以
我们知道在动态 mapping 启动后,一个索引的字段可能会随着导入文档字段数的增加而自动增加,在有些情况下会发生 “映射爆炸”,也就是说字段数超过我们容忍的范围,而且另外一个坏处是,随着字段的增加,导入的速度会变慢,这是因为更多的字段需要被分词。更多被分词的字段意味着更多的磁盘空间。这种情况在很多的情况下是不允许的。在这种情况下,我们可以动态创建 runtime fields。这个方法的好处是:
#!/usr/bin/python # coding:utf-8 # 绘制一个《三体》全集词云 # pip install jieba # pip install matplotlib # pip install scipy # pip install wordcloud import sys from collections import Counter import jieba.posseg
转载 10月前
39阅读
下载源码导入eclispe请参考我的上一篇文章ik分词器安装第一步 修改pom文件加入mysql驱动jar 如图所示 第二步 修改Java类1.在Dictionary.java文件中新增一个方法 /** * 批量加载新停用词条 * * @param words * Collection<String>词条列表 *
elasticsearch 虽然自带默认词库,但是在实际应用中对于词库灵活度的要求还是远远达不到的,elasticsearch 支持我们自定义词库,此文章就来讲一讲如何又快又好地对词库进行热更新热更新方案1.基于ik分词器原生的热更新方案,部署一个web服务器,提供一个http接口,通过modified和tag两个http响应头,来提供词语的热更新2.通过修改源码支持mysql定时拉取数据更新推荐
转载 2024-03-27 21:39:20
328阅读
[size=medium] es里面提供了两种批量建索引的方法: 1,使用 Bulk Api 特点是:使用比较简单,但控制不够灵活 2,使用Bulk Processor 特点是:使用稍麻烦,控制非常灵活 至于为什么要批量建索引,相信大伙已经不陌生了,为的就是提高写入效率,效率,效率! 数量大的情况下,10ms性能的提升,都有可能带来巨大的优化效果
先声明,热更新词库,需要用到,web项目和Tomcat。不会的,请移步Eclipse下Maven新建项目、自动打依赖jar包(包含普通项目和Web项目)Tomcat *的安装和运行(绿色版和安装版都适用)Tomcat的配置文件详解    1: 部署 http 服务在这使用 tomcat7 作为 web 容器, 先下载一个 tomcat7, 然后上传到某一台服
下载IK源码https://github.com/medcl/elasticsearch-analysis-ik/tree/v5.2.0选择你对应ik的版本(ps:版本最好一致)http://localhost:9200/?pretty查看es版本 我的是6.5.1修改源码1.创建一个ext包同时增加3个类文件DBHelper package org.wltea.analyzer.ext; i
转载 2024-07-19 06:43:03
110阅读
一、准备软件:        下载软件         附件中包含需要的2个软件和3个词库 1、iBackupBot for iTunes 5.1 注册iBackupBot help->registered iBackupBot注册码如下: 用户名:AXiS - Fighting For Fun 注册号:B6E
要使用ElasticSearch的多语言索引及搜索功能,首先我们得检测原始文档所使用过的语言。ElasticSearch官网推荐使用MikeMcCandless 在Github上创建的chromium-compact-language-detector (URL地址:https://github.com/mikemccand/chromium-compact-language-detector)。
转载 6月前
34阅读
如标题所见,这篇博客的主题就是基于Seq2Seq模型的机器翻译,它的主要任务就是将一种语言翻译为另一种语言,在这里我们以英语翻译成法语为例子,如I'm a student.---->>>Je suis étudiant.这份数据是公开,可以直接下载的,下载地址为:翻译语料下载地址模型结构首先,我们先了解一下模型的结构:首先,第一部分是编码器Encoder,它接收source se
转载 2024-10-15 21:17:53
17阅读
  • 1
  • 2
  • 3
  • 4
  • 5