近年来云计算的广泛应用,大量数据已经被存放在云中。虽然云服务提供了很多优点,敏感数据的隐私和安全问题仍然仍然让人担忧。为了消除这种担忧,以加密的形式外包敏感数据是值得期待的管理方式。加密存储防止对数据进行非法访问,但使得一些基本操作复杂化,如对数据的搜索。在很多文献中已经提出基于不危害隐私而实现对加密数据的搜索的可搜索加密方案。然而,大部分都是处理精确查询
在MongoDB中通过建立索引可以进行高效的查询,如果没有索引MongoDB将会扫描整个集合与查询的条件进行匹配,这对于性能会造成很大的消耗。生产环境如何正确创建索引?,参考:#Mongodb索引类型 MongoDB提供了不同的索引类型支持在不同的业务场景进行查询 1. _id索引 绝大多数集合默认建立索引,对于每个插入的数据,MongoDB都会生成一条唯一的_id字段。 例如新创建一个集合时 d
# 使用PaddleNLP实现相似检索的完整指南 在当今的NLP(自然语言处理)领域,相似检索是一项重要的任务,通常用于找出文本之间的相似性。PaddleNLP是一个强大的自然语言处理工具库,使用它可以高效地实现文本相似检索。本文将详细阐述如何通过PaddleNLP实现相似检索,适合初学者入门。 ## 流程概述 在实现相似检索的过程中,我们可以将步骤划分为以下几个阶段: | 步骤
这个仿佛差不多是为了赶作业然后一开始写了个直方图匹配后来找了两种最简单的能够加进去的方法……Fundimental在这里简单的实现了直方图匹配和图像感知的哈希算法。 采用的python库为PIL。直方图匹配基本公式为 Sim(G,S)=1N∑i=1N(1−|gi−si|Max(gi,si)) 对RGB分别取出来然后进行匹配其他此外可以通过把图像分块进行匹配来减少由于位置信息不足带来的误差。这
转载 2023-11-22 18:43:20
64阅读
图像相似识别算法aHash|dHash|PHashaHash算法基本原理优缺点python实现dHash算法基本原理优缺点python代码实现 aHash\pHash\dHash 是常用的图像相似识别算法,原理简单、实现方便。 aHash算法Hash算法进行图片相似识别的本质,就是将图片进行Hash转换,生成一组二进制数字,然后通过比较不同图片的Hash值距离找出相似图片。aHash中文
介绍最近因为工作需要,需要使用一个功能,就是中文文本相似的计算。属于nlp领域的一个应用吧,这里找到一个非常好的包和大家分享。这个包叫sentence-transformers。这里给大家介绍,如何使用这个包对中文文本做相似计算(这个包的其中一个小用途罢了)这里使用的模型是paraphrase-multilingual-MiniLM-L12-v2模型,因为paraphrase-MiniLM-L
一、FAISS 核心原理1. 向量量化加速检索IVF(Inverted File System):将高维向量空间划分为多个聚类(Voronoi cells),检索时仅搜索目标簇内的向量PQ(Product Quantization):将原始向量切分为子向量并分别量化,用笛卡尔积近似距离计算HNSW(Hierarchical Navigable Small World):多层图结构实现高效近邻搜索2
原创 8月前
343阅读
要计算文本的相似,要解决两个问题:首先,需要选择一个文本的表示方式。其次,需要选择一个衡量文本的相似的距离度量。文本的表示自然语言理解的问题要转化为机器学习的问题,第一步肯定是要找一种方法把这些文本符号数学化。词向量是用一个向量来表示某个词的方法。下面介绍几种常见的词向量。SOW 词集模型忽略文本词序、语法和句法,仅仅记录某个词是否在文本中出现。具体地,根据语料库获得一个单词集合,集合中保存着
通常来说,面向向量的相似检索的方法分为精确检索和近似检索两类。精确检索精确检索的本质就是线性查找。线性查找通过在整个向量空间内,遍历所有已存向量计算其与检索向量的距离,通常是计算欧几里德距离或者点积。欧氏距离最近的向量或者点积最大的向量就是相似最高的向量。线性查找算法简单,不需要建立额外的数据结构和存储空间。 例如,通过使用例如 Intel 架构下的 MKL 或者使用 NVIDIA GPU 的
转载 2023-10-26 19:51:48
68阅读
一、引入 1有很多指标可以用来衡量向量的相似,比如余弦距离、汉明距离、欧氏距离等。 在图像、视频、文本、音频领域,做向量的相似性搜索,有很多应用点,比如:图像识别,语音识别、垃圾邮件过滤。 这种基于相似检索的方案,不同于机器学习模型的方案。比如用有监督学习模型来做人脸识别,模型的可解释性较低,而 ...
转载 2021-08-04 13:20:00
1279阅读
2评论
 出来实习第一个做的事相似图像的查找,学了一下谷歌的快捷简便方法,确实很吊的感觉。后来又学习了其他的算法,这里先把谷歌这个方法贴出来,方便以后忘记是查找。当然了都是别人写的,一搜就能搜到 相似图像查找,谷歌相似图像 根据Neal Krawetz博士的解释,原理非常简单易懂。我们可以用一个快速算法,就达到基本的效果。 这里的关键技术叫做"感知哈希算法"(Perceptual hash
package com.etoak.simHash; import com.hankcs.hanlp.seg.common.Term; import com.hankcs.hanlp.tokenizer.StandardTokenizer; import org.apache.commons.lang3.StringUtils; import org.jsoup.Jsoup; import or
# 如何在MySQL中实现相似计算 作为一名刚入行的小白,有很多复杂的技术难题需要解决。今天,我们将一起探讨如何在MySQL中计算相似相似计算通常用于文本分析、推荐系统等领域。以下是实现相似计算的流程,我们将分步骤进行详细说明。 ## 实现流程 | 步骤 | 描述 | |------|-----------------------
mysql中一些功能相似的函数详解substr()substing()substr与substring的区别truncat、delete、drop三者区别 SQL 中的 substring 函数是用来抓出一个字符串中的其中一部分。这个函数的名称在不同的数据库库中不完全一样: MySQL: SUBSTR(), SUBSTRING()Oracle: SUBSTR()SQL Server: SUBS
通常情况下,全文检索引擎我们一般会用ES组件(传送门:SpringBoot系列——ElasticSearch),但不是所有业务都有那么大的数据量、那么大的并发要求,MySQL5.7之后内置了ngram分词器,支持中文分词,使用全文索引,即可实现对中文语义分词检索MySQL支持全文索引和搜索:  MySQL中的全文索引是FULLTEXT类型的索引。  全文索引只能用于InnoDB或MyISAM表,并
# Java 检索结果按输入相似排序的实现指导 在开发过程中,有时我们需要按照用户输入的关键词对检索结果进行排序。这里,我们将讨论如何在Java中实现"检索结果按输入相似排序"的功能。本文将详细介绍这个过程,帮助刚入行的小白开发者理解并实现这一功能。 ## 流程概述 在开始之前,我们先概述一下整个流程。下面是实现这一功能的步骤列表: | 步骤 | 描述
原创 2024-10-27 05:58:21
20阅读
# Java 分词后检索结果相似排序 在信息检索和自然语言处理领域,分词是一个基本而重要的步骤。分词后,如何对检索结果进行相似排序,进而优化检索效果,是许多开发者和研究者关注的焦点。本文将通过一个简单的示例,介绍如何使用Java进行分词并对检索结果进行相似排序。 ## 什么是分词? 分词,顾名思义,是将一段文本切分成词语的过程。对于中文来说,由于词语之间没有明显的分隔符,分词的难度相对
原创 2024-10-20 07:09:04
66阅读
NLP 中,文本匹配技术,不像 MT、MRC、QA 等属于 end-to-end 型任务,通常以文本相似计算、文本相关性计算的形式,在某应用系统中起核心支撑作用,比如搜索引擎、智能问答、知识检索、信息流推荐等。本篇将纵览文本匹配的技术发展,并重点介绍文本语义相似计算技术,以及多轮对话场景中的文本语义相似计算技术。1、文本匹配任务在真实场景中,如搜索引擎、智能问答、知识检索、信息流推荐等系统中
向量空间模型VSM:VSM的介绍:  一个文档可以由文档中的一系列关键词组成,而VSM则是用这些关键词的向量组成一篇文档,其中的每个分量代表词项在文档中的相对重要性。VSM的例子:  比如说,一个文档有分词和去停用词之后,有N个关键词(或许去重后就有M个关键词),文档关键词相应的表示为(d1,d2,d3,...,dn),而每个关键词都有一个对应的权重(w1,w1,...,wn)。对于一篇文档来说,
目录 定义:例子:python函数计算余弦相似性定义:余弦距离,也称为余弦相似,是用向量空间中两个向量之间的夹角余弦值作为衡量两个个体之间的差异大小的度量。(不难理解,余弦相似就是基于两个向量之间的夹角的大小进行一个相似的判断。)余弦值越接近于1, 夹角之间的度数越接近0,也就是两个向量越相似,这就叫做“余弦相似”。举例说明:通过上图,我们能看出,将两张人脸图片通过卷积神经网路
  • 1
  • 2
  • 3
  • 4
  • 5