知识点:1、实时 分布式 搜索和分析引擎 2、处理PB级别的数据-------------------------1.1是什么------------------------- 1、基于lucene,上层封装为restful api 2、全文搜索、结构化搜索、分析 3、分布式的实时文件存储 4、分布式的实时分析搜索引擎 5、内存数据网格 a.内存网格(RAM(Random Access Memor
目录基础认识:--match--match_phrase--multi_match--best_fields--most_fields--cross_fields--term查询子句--bool联合查询:must,should,must_not案例书籍推荐基础认识:Bool查询对应Lucenne中的BooleanQuery,它由一个或者多个子句组成,–bool 现在包括四种子句:–m...
转载 2021-08-30 14:10:53
568阅读
1、什么是Elasticsearch?我们这里简单介绍一下elasticsearch elasticsearch是一个分布式、高性能、高可用、可伸缩的搜索和分析系统。 es它是一款数据库,他就是面向文档的nosql数据库, 它使用的格式是json使用lucenne(他就是一个jar包,他采取了倒排索引的方式进行高效率搜索的框架,它的api复杂,不支持集群。但是es完美解决它的这些缺点,开箱即用)作
一、使用技术Http协议正则表达式队列模式Lucenne中文分词MapReduce二、网络爬虫项目目的 通过制定url爬取界面源码,通过正则表达式匹配出其中所需的资源(这里是爬取csdn博客url及博客名),将爬到的资源存入文件中便于制作成倒排索引。根据页面源码垂直爬取csdn网站中的所有博客资源(找到一个超链接就爬取该超链接中的内容)。设计思想 建立一个队列对象,首先将传入的url存入代表未