【前沿重器】栏目主要给大家分享各种大厂、顶会的论文分享,从中抽取关键精华的部分大家分享,大家一起把握前沿技术。具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有。往期回顾前沿重器[7] | 小布助手登顶百度千言短文本相似度的秘诀前沿重器[8] | CV研究启发语义相似表征前沿重器[9] | ESIM:语义相似度领域小模型的尊严前沿重器[10] | bert语义空间的思考前沿重器
为何需要Query改写Query分析是搜索引擎的一个重要模块,对搜索结果的覆盖率相关性至关重要。搜索引擎的检索过程包含了两个重要的阶段:匹配排序。匹配也叫召回,表示根据用户的查询条件,尽可能多地匹配出主题相关的文档,尽可能少地匹配出主题不相关的文档。排序是指对召回阶段返回的文档集合进行合理的排序,把最满足用户意图的结果尽可能排到前面。Query分析的主要目标是为匹配过程提供必要的知识信息,同
转载 2023-11-15 16:43:16
104阅读
本文介绍了一篇典型的 PRF (Pseudo-relevance feedback)思路的论文,用于利用LLM来做query改写,提升召回率,召回效果。为大家介绍PRF的主要流程,PRF的提升效果。PRF的弊端。 以及不同规模的LLM对改写的效果的影响。
原创 2024-02-29 11:31:06
686阅读
在现代软件开发中,数据查询的有效性效率至关重要。因此,"query改写 Java"这一主题显得尤为重要,它不仅涉及对原始查询的优化,也关系到系统的整体性能用户体验。本文将通过几个主要部分详细探讨如何解决“query改写 Java”问题。 ### 环境准备 在开始之前,我们需要确保我们的环境配置与技术栈兼容。以下是进行环境准备所需的组件及其安装命令: ```bash # 安装 Java J
原创 6月前
29阅读
本文介绍了一种简单而有效的查询扩展方法。通过大语言模型(LLM)的小样本提示生成答案,然后原始query进行拼接,作为以下方式提高了 BM25 的性能3% 到 15%。
原创 2024-02-29 11:31:50
520阅读
通常用户的query是无法预测的。给定一个候选集,直接命中和query最相关的文档是一件困难的事情。这篇论文中,提出了HyDE,
2月初,人工智能领域的顶级会议AAAI 2020已在美国纽约召开,百度共有28篇论文入选。NLP预训练领域入选论文《ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding》被选为Oral展示。该论文提出了持续学习的语义理解框架,该框架可增量学习海量数据中的知识,持续提升语义理解效果,本文将对其展开解读。&nb
2月初,人工智能领域的顶级会议AAAI 2020已在美国纽约召开,百度共有28篇论文入选。NLP预训练领域入选论文《ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding》被选为Oral展示。该论文提出了持续学习的语义理解框架,该框架可增量学习海量数据中的知识,持续提升语义理解效果,本文将对其展开解读。&nb
查询扩展是一种广泛应用于提高搜索系统召回率的技术。在本文中,我们提出了一种利用大型语言模型(llm)的生成能力的查询扩
自从大模型火了以后,各行业各都发生了翻天覆地的变化。其中query Rewrite也开始使用大模型来做query 扩展。大模型所有的优点都可以得到
原创 2024-02-29 11:31:24
319阅读
在session上下文中,捕获用户的搜索意图,是一件较为复杂困难的事情。一起看一下人大的这篇论文。论文中提出了一个简单而有效
# LLM NLP 同义句改写的探索 在自然语言处理(NLP)领域,同义句改写是一个重要的任务。它主要指的是生成与原句具有相同或相似意思的不同表述。此技术对于机器翻译、文本摘要和问答系统等应用都有着重要的作用。近年来,随着大型语言模型(LLM)的崛起,同义句改写的效果得到了显著提升。本文将深入探讨这一主题,并提供一些代码示例来帮助您理解基本原理。 ## 同义句改写的基本概念 同义句改写
原创 10月前
213阅读
如何有效的丰富扩展query,是一个提升召回率的关键问题。在大模型时代到来后,大家都开始使用LLM来扩展query。尽管LLM具有显
(伪相关反馈)为了解决模型的幻觉问题,在改写前,先拿原始query去进行一次query,然后将召回的数据作为参考内容,送给
用户搜 牛肉拉面 — 高频下单 面馆A 面馆B 面馆D。用户搜 牛肉面 — 高频下单 面馆A 面馆B 面馆C。那么可以认为 牛肉面 牛肉拉面 是很相似的词了。
原创 2024-03-06 15:28:38
43阅读
Dubbo服务调用扩展点学习及实践Dubbo有哪些服务调用扩展点? 在服务调用过程中,主要分为两部分,一部分是消费者端链路,另一部分是服务端链路。消费者端:首先由Stub将请求封装成Invocation对象,将Invocation对象传递给ClusterFilter。ClusterFilter是一个扩展点,主要做消费者端的请求拦截,实现请求预处理、参数转换、请求日志记录、限流等操作。随后进入Clu
转载 2024-04-28 14:37:17
104阅读
美团的搜索引擎主要是对店铺的主店名称,分店名称,地址,推荐菜,商品等进行分词,然后进行倒排索引。用户在搜索时会使用不同的Query去找到想要的结果,但用户的query与索引的内容可能存在差异导致无法召回,比如用户在搜索“早餐”,那"一品粥铺"、"永和豆浆"这些肯定出不来,这样会流失掉很多用户需求。那美团是怎么实现的呢?我们今天就来讲讲美团的Query改写算法。
图像增广通过对训练图像做一系列随机改变,来产生相似但又不同的训练样本,从而扩大训练数据集的规模。图像增广的另一种解释是,随机改变训练样本可以降低模型对某些属性的依赖,从而提高模型的泛化能力。我们可以对图像进行不同方式的裁剪,使感兴趣的物体出现在不同位置,从而减轻模型对物体出现位置的依赖性。我们也可以调整亮度、色彩等因素来降低模型对色彩的敏感度。1翻转裁剪,2变化颜色(亮度、对比度、饱和度色调)
摘要现在我们有了模型和数据,是时候通过优化数据参数来训练、验证测试我们的模型了。 训练模型是一个迭代过程; 在每次迭代(称为 epoch)中,模型对输出进行猜测,计算其猜测中的误差(损失),收集误差对其参数的导数(如我们在上一节中看到的),并优化 这些参数使用梯度下降。先决条件代码我们从前面关于 Datasets & DataLoaders Build Model 的部分加载代码。i
1、什么是问答系统问答系统是最早的NLP任务,根据问题的依存关系,找到适合的依存关系的回答。在现代系统中问题被分为两类 事实问题的回答一般都是一个简单的词组或者是命名实体两种问答系统的范式基于信息检索的路径:TREC; IBM Watson; Google基于知识的混杂路径:IBM Watson; Apple Siri; Wolfram Alpha; True Knowledge Evi基于信息检
  • 1
  • 2
  • 3
  • 4
  • 5