Coreseek、Sphinx-for-chinaese、Sphinx+Scws区别

原创

nuli888 2023-08-25 10:06:28 博主文章分类：php ©著作权

©著作权归作者所有：来自51CTO博客作者nuli888的原创作品，请联系作者获取转载授权，否则将追究法律责任

Sphinx是一个基于SQL的全文检索引擎；普遍使用于很多网站

Sphinx的特性如下：
a) 高速的建立索引(在当代CPU上，峰值性能可达到10 MB/秒);
b) 高性能的搜索(在2 – 4GB 的文本数据上，平均每次检索响应时间小于0.1秒);
c) 可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可处理100 M 文档);

Sphinx本身对中文的支持并不好。
主要体现在对一段话断词；英文只需按照空格对其分词即可；但对于博大精深的中文来说，却是件困难的事情。
分词在两个地方会用到；
1、索引时，根据分词索引原始数据
2、搜索时，对用户输入分词，到索引中查询

目前最常用的三种方案Coreseek、Sphinx-for-chinaese、Sphinx+Scws

1、Coreseek 为国人基于Sphinx开发的方案，目前最稳定版，是基于经典的Sphinx0.9.9版
优点：有成熟的文档、以及社区；其分词mmseg为目前国内最为好用分词，索引和搜索分词都可以用到；
缺点：深度开发、版本更新较慢；索引较慢
策略：一个词库管理后台，维护词库；定期生成字典；此套件会自动分词索引；
适用场景：普通青年、搭建差不多的搜索，适用于普遍网站

2、Sphinx-for-chinaese 为国人2基于经典的Sphinx0.9.9版开发的扩展版
优点：部署简单，易操作，内嵌分词和词库，索引和搜索分词都可以用到；
缺点:版本更新较慢；分词较弱；索引相对较慢
策略：同一
适用场景：普通青年、快速搭建搜索的小站

3、Sphinx+Scws 为两套独立系统，单独部署，所谓高内聚低耦合，强烈推荐
优点：两套系统，相对独立，各自单独Server；分词可以做其他用途；版本更新较快；
缺点：部署稍复杂，使用稍复杂；索引分词只能用一元分词，数据量较大
策略：词库管理外；使用时，先调用分词服务，后调用搜索
适用场景：文艺青年、搭建像样点的搜索；好吧文艺青年