搜索引擎的分布式架构分布式搜索技术

关注码海探险家

文章目录

概述
注意事项
分布式搜索逻辑实现
参考文档

搜索引擎的分布式架构分布式搜索技术

转载

码海探险家 2023-07-09 13:12:52

文章标签 搜索引擎的分布式架构 solr 搜索服务器 文章分类 架构后端开发

概述

Solr单机支持的搜索数据量是有一定上限的，这个取决于搜索的复杂程度，服务器的硬件配置与业务的要求等等，所以将搜索功能分布化将是对于大数据搜索的一个必然趋势。

Solr从1.3版本开始，自带了分布式搜索（Distributed Search）。这个功能使得Solr能够通过多服务器进行横行扩展，对数据进行水平拆分，从而支持海量数据的搜索功能。

Solr-3.6.1版本对分布式搜索的支持功能如下：

搜索功能模块	是否支持分布式搜索
Query component	Y
Facet component	Y
Highlighting component	Y
Spell Check Component	Y
Terms Component	Y
Stats component	Y
Term Vector Component	Y
Debug component	Y
Grouping component	Y
QueryElevationComponent	N
MoreLikeThis	N
Join	N

由于业务功能和时间的缘故，本文将只讨论Query component的技术实现逻辑。

注意事项

在使用Solr进行分布式搜索的时候，需要注意以下细节：

schema.xml中定义的unique key必须保存在索引中。因为Solr在进行2nd phrase搜索时需要使用这个unique key进行数据一致性的二次确认与获取搜索要求查询的字段数据。
分布在不同服务器中的索引文件中包含的unique key不要有重复。因为Solr在进行1st phrase搜索时需要根据这些unique key进行排序与去重，如果unique key有重复，包含相同unique key的doc结果将随机返回。
搜索结果不要有过多的翻页。因为Solr的分布式搜索中，会将需要翻页排序后的总结果全部返回给proxy solr server进行汇总排序，如果翻页过多，那么对网络带宽将会照成一定的压力。
注意HTTP连接数。因为Solr的分布式搜索中，服务器可能既是search server又是proxy server，一遍等待http请求应答有一遍处理http请求，多台服务器之间就可能会出现死锁。

分布式搜索逻辑实现

Query component的实现原则为：Multi-phased approach, allowing for inconsistency，具体的实现细节如下：

客户端发送搜索请求给Solr集群中的任意一台服务器SP。
SP服务器处理分布式查询请求

Phase One

构建查询请求，只获取查询Doc的unique key与sort field字段。
将构建好的请求通过HTTP发送给每一个Solr Shard节点。
等待Solr Shard节点返回查询结果。
根据排序规则，逐个合并Solr Shard节点返回的查询结果。

Phase Two

构建查询请求，根据unique key查询客户端查询的相关字段数据。
将构建好的请求通过HTTP发送给每一个需要请求的Solr Shard节点。
等待Solr Shard节点返回查询结果。
逐个合并Solr Shard节点返回的查询结果，构建本次查询的最终结果。
SP服务器将分布式查询结果返回给客户端

注意：当前的版本中，分布式查询中如果有某一个Shard异常，整体的查询将失败。

参考文档

http://wiki.apache.org/solr/DistributedSearch
http://wiki.apache.org/solr/WritingDistributedSearchComponents
http://wiki.apache.org/solr/DistributedSearchDesign
Solr-3.6.1源码

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：python和fpga python和fpga交互

下一篇：微服务架构中,什么是分布式跟踪分布式架构微服务架构

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册