最近在配合研发做ubd的项目,简单的说就是一张大宽表,有200个字段,而且数据量特别巨大(1亿级别的数据量),传统的数据库是不适合的,因此考虑基于lucene的solr,并且推荐使用solr cloud的功能来做高可用和sharding(后面会更新对solr和lucene的代码学习)。数据从hive计算插入到solr中,根据github上的代码自己做了修改,实现了hive2solr的
之前介绍了github上的hive2solr项目和solr的multivalue功能。线上我们是采用hive计算完数据后推送到solr的方法,如果需要实现multivalue的话,默认的hive2solr是有些问题的。即使在hive中对于的field是多个字,导入solr之后也只是一个整体的字符串,比如下面表的数据如下:id &
线上业务准备使用solr做数据存放和索引的功能,其中有的字段要求会存入多个字,solr的field的multivalue可以实现这个功能。<dynamicField name="*_ss" type="string" indexed="true" stored="true" multiValued="tr
在solrcloud出来之前,如果通过solrj连接solrserver,需要程序自己实现一致性hash.新版本的solr支持cloud的部署方式,可以自动实现lb和sharding的功能(通过CloudSolrServer类连接cloud),可以用下面代码做测试需要的jar包如下:apache-solr-solrj.jar apache-solr-core.jar zookeepe
最近有个项目要用solr,solr是基于lucene的,今天在测试indexwriter时遇到了lock的问题:测试代码:import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.a
最近在测试hive导入solr,github上有个相关的代码https://github.com/chimpler/hive-solr其原理就是实现inputformat和outputformat,通过mapred来做数据的读写操作。测试的表结构:show create table table_in_solr1; CREATE EXTERNAL T
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号