搜索引擎选型调研文档

Elasticsearch简介*

Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。

它可以用于全文搜索结构化搜索以及分析,当然你也可以将这三者进行组合。

Elasticsearch是一个建立在全文搜索引擎Apache Lucene基础上的搜索引擎,可以说Lucene是当今最先进,最高效的全功能开源搜索引擎框架。

当然Elasticsearch并不仅仅是Lucene这么简单,它不但包括了全文搜索功能,还可以进行以下工作:

  • 分布式实时文件存储,并将每一个字段都编入索引,使其可以被搜索
  • 实时分析的分布式搜索引擎
  • 可以扩展到上百台服务器,处理PB级别的结构化或非结构数据

ElasticSearch的优缺点:

优点:

1、ElasticSearch是分布式的。不需要其他组件,分发是实时的,被叫做“Push replication”

2、ElasticSearch完全支持Apache Lucene的接近实时的搜索

3、处理多租户(multitenancy)不需要特殊配置,而Solr则需要更多的高级设置

4、ElasticSearch采用Gateway的概念,使得完全备份更加简单

5、各节点组成对等的网络结构,某些节点出现故障时会自动分配其他节点代替其进行工作

Solr简介*

Solr是Apache Lucene项目的开源企业搜索平台。其主要功能包括

全文检索

命中标识

分页搜索、

动态聚类、

数据库集成、

富文本(如Word、PDF)处理

Solr是高度可扩展的,并提供了分布式搜索的索引复制。Solr是最流行的企业级搜索引擎,Solr4还增加了NoSQL支持。

Solr是用Java编写的、运行在Servlet容器的一个独立的全文搜索服务器。Solr采用了Lucene Java搜索库为核心的全文索引和搜索,并具有类似REST的HTTP/XML和JSON的API。Solr强大的外部配置功能使得无需进行Java编码,便可对其进行调整以适应多种类型的应用程序。solr有一种插件架构 ,以支持更多的高级定制。

Solr的优缺点

优点

1、Solr有一个更大、更成熟的用户、开发和贡献者社区

2、支持添加多种格式的索引,如:HTML、PDF、微软Office系列软件格式以及JSON、XML、CSV等纯文本格式。

3、Solr比较成熟、稳定

4、不考虑建索引的同时进行搜索,速度更快

ElasticSearch与Solr的比较*

当单纯的对已有数据进行搜索时,Solr更快

Search_fresh_index_while_Idle

当实时建立索引时,Solr会产生io阻塞,查询性能较差,ElasticSearch具有明显的优势

search_fresh_index_while_indexing

随着数据量的增加,Solr的搜索效率会变得更低,而ElasticSearch却没有明显的变化

综上所述,Solr的架构不适合实时搜索的应用。

ElasticSearch与Solr的比较总结

  • 二者安装都很简单
  • solr 利用Zookeeper进行分布式管理,而Elasticsearch自身带有分布式协调管理功能
  • Solr支持更多格式的数据,而ElasticSearch仅支持文件格式
  • Solr官方提供功能更多,而ElasticSearch本身更注重于核心功能,高级功能多有第三方插件提供
  • Solr在传统的搜索应用中表现好于ElasticSearch,但在处理实时搜索应用时效率明显低于ElasticSearch

Solr是传统搜索应用的有力解决方案,但ElasticSearch更适用于新兴的实时搜索应用。