搜索引擎选型调研文档
Elasticsearch简介*
Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。
它可以用于全文搜索,结构化搜索以及分析,当然你也可以将这三者进行组合。
Elasticsearch是一个建立在全文搜索引擎Apache Lucene基础上的搜索引擎,可以说Lucene是当今最先进,最高效的全功能开源搜索引擎框架。
当然Elasticsearch并不仅仅是Lucene这么简单,它不但包括了全文搜索功能,还可以进行以下工作:
- 分布式实时文件存储,并将每一个字段都编入索引,使其可以被搜索
- 实时分析的分布式搜索引擎
- 可以扩展到上百台服务器,处理PB级别的结构化或非结构数据
ElasticSearch的优缺点:
优点:
1、ElasticSearch是分布式的。不需要其他组件,分发是实时的,被叫做“Push replication”
2、ElasticSearch完全支持Apache Lucene的接近实时的搜索
3、处理多租户(multitenancy)不需要特殊配置,而Solr则需要更多的高级设置
4、ElasticSearch采用Gateway的概念,使得完全备份更加简单
5、各节点组成对等的网络结构,某些节点出现故障时会自动分配其他节点代替其进行工作
Solr简介*
Solr是Apache Lucene项目的开源企业搜索平台。其主要功能包括
全文检索、
命中标识、
分页搜索、
动态聚类、
数据库集成、
富文本(如Word、PDF)处理
Solr是高度可扩展的,并提供了分布式搜索的索引复制。Solr是最流行的企业级搜索引擎,Solr4还增加了NoSQL支持。
Solr是用Java编写的、运行在Servlet容器的一个独立的全文搜索服务器。Solr采用了Lucene Java搜索库为核心的全文索引和搜索,并具有类似REST的HTTP/XML和JSON的API。Solr强大的外部配置功能使得无需进行Java编码,便可对其进行调整以适应多种类型的应用程序。solr有一种插件架构 ,以支持更多的高级定制。
Solr的优缺点
优点
1、Solr有一个更大、更成熟的用户、开发和贡献者社区
2、支持添加多种格式的索引,如:HTML、PDF、微软Office系列软件格式以及JSON、XML、CSV等纯文本格式。
3、Solr比较成熟、稳定
4、不考虑建索引的同时进行搜索,速度更快
ElasticSearch与Solr的比较*
当单纯的对已有数据进行搜索时,Solr更快
Search_fresh_index_while_Idle
当实时建立索引时,Solr会产生io阻塞,查询性能较差,ElasticSearch具有明显的优势
search_fresh_index_while_indexing
随着数据量的增加,Solr的搜索效率会变得更低,而ElasticSearch却没有明显的变化
综上所述,Solr的架构不适合实时搜索的应用。
ElasticSearch与Solr的比较总结
- 二者安装都很简单
- solr 利用Zookeeper进行分布式管理,而Elasticsearch自身带有分布式协调管理功能
- Solr支持更多格式的数据,而ElasticSearch仅支持文件格式
- Solr官方提供功能更多,而ElasticSearch本身更注重于核心功能,高级功能多有第三方插件提供
- Solr在传统的搜索应用中表现好于ElasticSearch,但在处理实时搜索应用时效率明显低于ElasticSearch
Solr是传统搜索应用的有力解决方案,但ElasticSearch更适用于新兴的实时搜索应用。