tocsv 不带索引

转载

夜行者3号 2024-09-29 16:11:11

文章标签 tocsv 不带索引 sql索引的建立与使用内部jar包如何生成索引文件建立了索引怎么使用 jar 文章分类 数据仓库大数据

作者：余枫

文档编写目的

在上一篇《0700-6.2.0-使用Solr7对多种格式文件建立全文索引》中介绍了如何在CDH6.2.0中使用Solr7对多种格式的文件进行全文索引，测试中使用的主要是非结构化的word、ppt、pdf等非结构化的数据，很多时候需要使用Solr对结构化的数据进行索引，根据其中某些字段进行精准的查询或者范围查询，本文档将介绍如何使用Solr对csv文件建立全文索引。

内容概述

1.准备测试数据

2.建立索引

3.进行查询验证

4.总结

测试环境

1.CM和CDH版本为6.2.0

2.Solr版本为7.4.0

3.集群未启用kerberos

4.采用root用户

前置条件

1.CDH集群已安装成功并正常运行

2.集群已添加Solr服务

准备测试数据

1.本次测试准备生成一个1GB左右大小的csv文件，该数据文件共有十个字段，其中有int、double、string、date以及中文文本和英文文本等类型，多一些数据类型方便测试，下面是生成数据的Java代码

https://github.com/fayson/cdhproject/blob/master/generatedata/src/main/java/com/cloudera/solr/GenerateSolrTestData.java

生成的数据一共60W条，大小1.1GB，十个字段分别为number,firstDouble,firstNo,secondDouble,secondNo,jarName,enText,cnText,firstTime,secondTime

tocsv 不带索引_内部jar包如何生成索引文件

建立索引

在Solr Web页面，选择左侧的【Collections】，然后单击【Add collection】。创建一个Collection

tocsv 不带索引_sql索引的建立与使用_02

Collection创建成功

tocsv 不带索引_jar_03

将准备好的csv文件导入到Solr中，Solr自带的post.jar提供了这个功能，下面是post.jar的用法

tocsv 不带索引_内部jar包如何生成索引文件_04

参考help命令，使用下面的命令将csv文件导入到Solr中，并建立全文索引

java -Durl=http://localhost:8983/solr/test0723/update -Dtype=text/csv -Dc=test0723 -jar post.jar /tmp/solr/file/data.csv

tocsv 不带索引_sql索引的建立与使用_05

csv文件导入成功，下一步在Solr上进行查询验证

进行查询验证

1.进入query界面

tocsv 不带索引_内部jar包如何生成索引文件_06

2.根据单个字段查询

number

tocsv 不带索引_建立了索引怎么使用_07

jarName

tocsv 不带索引_tocsv 不带索引_08

时间字段范围查询

tocsv 不带索引_tocsv 不带索引_09

3.根据英文文本中的内容查找

tocsv 不带索引_sql索引的建立与使用_10

4.根据中文文本中的内容进行查找

tocsv 不带索引_内部jar包如何生成索引文件_11

5.使用字段的组合进行查找

在某个时间范围内的number在1到10000之间的英文文本中包含Cloudera的记录

tocsv 不带索引_建立了索引怎么使用_12

在number30000到40000的记录中，firstDouble大于200，secondDouble小于500的记录

tocsv 不带索引_jar_13

jarName以spark开头，且中文文本中包含“查询”的记录

tocsv 不带索引_sql索引的建立与使用_14

总结

1.与上篇文档中使用的dataimport的方式导入数据建立索引不同，本文档使用Solr自带的post.jar将csv文件导入并创建索引，经过查询测试，该方式能够正常使用。

2.Solr在使用时间格式进行查询时，只能使用UTC格式，Solr只能识别这种格式的时间，例如2018-03-06T02:37:02Z。

3.在使用多条件查询时，可以使用fq，在fq中可以添加多个检索条件，其中范围检索可以使用{}、[]、TO搭配来实现，例如firstTime:[2018-01-01T00:00:00Z TO 2018-01-31T23:59:59Z]，表示firstTime在1月1日到1月31日之间的数据。

4.Solr的query页面还有许多参数可以使用，例如sort可以对字段进行排序，start、rows可以定义分页的数量，wt可以指定检索结果的格式等等。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：vue3 axios headers 其他字段

下一篇：release date gpu

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯