范围查询索引失效的原因范围内查找

转载

智能创新者 2024-08-15 00:57:55

文章标签 范围查询索引失效的原因 lucene apache System 文章分类 数据仓库大数据

有时用户会需要一种在一个范围内查找某个文档，比如查找某一时间段内的所有文档，此时，Lucene提供了一种名为RangeQuery的类来满足这种需求。

RangeQuery表示在某范围内的搜索条件，实现从一个开始词条到一个结束词条的搜索功能，在查询时“开始词条”和“结束词条”可以被包含在内也可以不被包含在内。它的具体用法如下：

RangeQuery query = new RangeQuery(begin, end, included);

在参数列表中，最后一个boolean值表示是否包含边界条件本身，即当其为TRUE时，表示包含边界值，用字符可以表示为“[begin TO end]”；当其为FALSE时，表示不包含边界值，用字符可以表示为“{begin TO end}”。

RangeQueryTest.java

package ch11;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

import org.apache.lucene.document.Document;

import org.apache.lucene.document.Field;

import org.apache.lucene.index.IndexWriter;

import org.apache.lucene.index.Term;

import org.apache.lucene.search.Hits;

import org.apache.lucene.search.IndexSearcher;

import org.apache.lucene.search.RangeQuery;

 

public class RangeQueryTest {

     public static void main (String [] args) throws Exception {

        

         //生成文档对象，下同

         Document doc1 = new Document();

         //添加“time”字段中的内容，下同

         doc1.add(Field.Text("time", "200001"));

         //添加“title”字段中的内容，下同

         doc1.add(Field.Keyword("title", "doc1"));

         

         Document doc2 = new Document();

         doc2.add(Field.Text("time", "200002"));

         doc2.add(Field.Keyword("title", "doc2"));

         

         Document doc3 = new Document();

         doc3.add(Field.Text("time", "200003"));

         doc3.add(Field.Keyword("title", "doc3"));

         

         Document doc4 = new Document();

         doc4.add(Field.Text("time", "200004"));

         doc4.add(Field.Keyword("title", "doc4"));

         

         Document doc5 = new Document();

         doc5.add(Field.Text("time", "200005"));

         doc5.add(Field.Keyword("title", "doc5"));

         

         //生成索引书写器

         IndexWriter writer = new IndexWriter("c://index", new StandardAnalyzer(), true);

         //设置为混合索引格式

          writer.setUseCompoundFile(true);

        

         //将文档对象添加到索引中

         writer.addDocument(doc1);

         writer.addDocument(doc2);

         writer.addDocument(doc3);

         writer.addDocument(doc4);

         writer.addDocument(doc5);

        

         //关闭索引

         writer.close();

        

         //生成索引搜索器

         IndexSearcher searcher = new IndexSearcher("c://index");

        

         //构造词条

         Term beginTime = new Term("time","200001");

         Term endTime = new Term("time","200005");

        

         //用于保存检索结果

         Hits hits = null;

         //生成RangeQuery对象，初始化为null

         RangeQuery query = null;

        

         //构造RangeQuery对象，检索条件中不包含边界值

         query = new RangeQuery(beginTime, endTime, false);

         //开始检索，并返回检索结果

         hits = searcher.search(query);

         //输出检索结果的相关信息

         printResult(hits, "从200001～200005的文档，不包括200001和200005");

        

         //再构造一个RangeQuery对象，检索条件中包含边界值

         query = new RangeQuery(beginTime, endTime, true);

         //开始第二次检索

         hits = searcher.search(query);

         //输出检索结果的相关信息

         printResult(hits, "从200001～200005的文档，包括200001和200005");

        

     }

    

     public static void printResult(Hits hits, String key) throws Exception

         {System.out.println("查找 /"" + key + "/" :");

         if (hits != null) {

             if (hits.length() == 0) {

                 System.out.println("没有找到任何结果");

             } else {

                 System.out.print("找到");

                 for (int i = 0; i < hits.length(); i++) {

                     Document d = hits.doc(i);

                     String dname = d.get("title");

                     System.out.print(dname + "   " );

                 }

                 System.out.println();

                 System.out.println();

             }

         }

     }

}

在上述代码中首先构造了两个Term词条，然后构造了一个RangeQuery对象。在初始化RangeQuery对象的时候，使用构造的两个Term词条作为RangeQuery构造函数的参数。前面已经说过，RangeQuery的构造函数中的两个参数分别称为“开始词条”和“结束词条”，它的含义也就是查找介于这两者之间的所有Document。

代码使用RangeQuery共进行了两次检索，第一次的检索条件中不包括边界值，第二次的检索条件中包括边界值。

第1次使用FALSE参数构造的RangeQuery对象不包括2个边界值，因此只返回3个Document，而第2次使用TRUE参数构造的RangeQuery则包括2个边界值，因此将5个Document全部返回了。

知识只有共享才能传播，才能推崇出新的知识，才能学到更多，这里写的每一篇文字/博客，基本都是从网上查询了一下资料然后记录下来，也有些是原滋原味搬了过来，也有时加了一些自己的想法

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。