最近在配合研发做ubd的项目,简单的说就是一张大宽表,有200个字段,而且数据量特别巨大(1亿级别的数据量),传统的数据库是不适合的,因此考虑基于lucene的solr,并且推荐使用solr cloud的功能来做高可用和sharding(后面会更新对solr和lucene的代码学习)。数据从hive计算插入到solr中,根据github上的代码自己做了修改,实现了hive2solr的
线上业务准备使用solr做数据存放和索引的功能,其中有的字段要求会存入多个字,solr的field的multivalue可以实现这个功能。<dynamicField name="*_ss" type="string" indexed="true" stored="true" multiValued="tr
最近有个项目要用solr,solr是基于lucene的,今天在测试indexwriter时遇到了lock的问题:测试代码:import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.a
最近在测试hive导入solr,github上有个相关的代码https://github.com/chimpler/hive-solr其原理就是实现inputformat和outputformat,通过mapred来做数据的读写操作。测试的表结构:show create table table_in_solr1; CREATE EXTERNAL T
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号