这就是搜索引擎核心技术详解 张俊林 著 ISBN 978-7-121-14865-1 2012年1月出版 定价:45.00 元 16开 320页 宣传语:改变全世界人们生活方式的“信息之门” 内 容 简 介 搜索引擎作为互联网发展中至关重要的一种应用,已经成为互联网各个领域的制高点,其重要性不言而喻。搜索引擎领域也是互联网应
原创 2012-01-05 20:42:11
452阅读
搜索结果排序是搜索引擎核心的构成部分,很大程度上决定了搜索引擎的质量好坏以及用户接受与否。尽管搜索引擎在实际结果排序时融合了上百种排序因子, 但最重要的两个因素还是用户查询和网页的内容相关性以及网络链接情况。 判断网页内容是否与用户查询相关,这依赖于搜索引擎所采用的检索模型。布尔模型,向量空间模型,概率模型,语言模型以及机器学习排序算法。 尽管检索模型多种多样,但其在搜索引擎中所
   搜索引擎作为互联网发展中至关重要的一种应用,已经成为互联网各个领域的制高点,其重要性不言而喻。搜索引擎领域也是互联网应用中不多见的以核心技术作为其命脉的领域,搜索引擎各个子系统是如何设计的?这成为广大技术人员和搜索引擎优化人员密切关注的内容。        由于对网络搜素过程不是很了解,刚好又是在实验室看到这本书《这就是搜索引擎:
原创 2013-07-21 16:02:24
1581阅读
1.单词——文档矩阵 单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图3-1展示了其含义。图3-1的每列代表
原创 1月前
6阅读
什么是搜索引擎搜索引擎(search engines)是对互联网上的信息资源进行搜集整理,然后供你查询的系统,它包括信息搜集、信息整理和用户查询三部分。搜索引擎其实也是一个网站,只不过该网站专门为你提供信息“检索”服务,它使用特有的程序把因特网上的所有信息归类以帮助人们在浩如烟海的信息海洋中搜寻到自己所需要的信息。搜索引擎按其工作的方式分为两类:一类是分类目录型的检索,把因特网中的资源收集起来,
# 搜索引擎工作流程及其架构1、推导用户的真正搜索意图:当搜索引擎接收到用户的查询词,通过查询词和用户信息推测用户的真正查询意图。2、首先在缓存中查找:Cache系统中储存了不同的查询意图对应的搜索结果,在该系统中能找到能够找到符合用户需求的结果将直接返回,这样声调了重复计算的消耗又加快了相应速度。3、当Cache系统无法满足用户需求:“网页排序”模块功能,该功能要考虑两个因素,(1)网页能容相似
原创 2022-10-28 11:31:05
545阅读
这篇文章是关于搜索网站的理论知识,非常不错搜索引擎的定义搜索引擎是传统IR技术在Web环境中的应用。一般来说,搜索引擎是一种用于帮助用户在Internet上查询信息的搜索工具,它以一定的策略在Internet中搜索,发现信息,对信息进行理解,提取,组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎的体系结构典型的搜索引擎结构一般由以下三个模块组成:信息采集模块(Crawler),索
 1.概述搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。2.搜索引擎分类按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:全文搜索引擎(Full Text Search Engine)、目录索引搜索引擎(Search Index/Directo
万变不离其宗,搜索引擎搜索结果排序算法模型,可以抽象为计算每一个doc的p(d|q),利用朴素贝叶斯算法原理,p(d|q)=p(q|d)*p(d)/p(q),p(q)对于每一个doc都是一样的,所以最终的排序打分是p(q|d)*p(d),p(q|d)是query和doc的匹配程度,p(d)是每个doc的本身的打分,而doc本身的打分可以定义的角度非常多,和诸多的因素有关。Lucene默认的排序算
‖前 言近年来,万维网(World Wide Web,简称Web)已经成为最大的信息源, 开发先进的搜索工具一直是因特网(Internet)技术的一项关键研究和开发工作。由于Google和Yahoo!等主流搜索引擎的普及,目前在Web上的搜索工具中,搜索引擎是人们最为熟知的。虽然这些主流搜索引擎非常成功,但也存在许多严重的局限性。例如,每个搜索引擎仅能覆盖Web上全部可用内容的一小部分;其基于爬虫
搜索服务,已经成为了互联网最常用的基本服务: 从谷歌、百度搜索关键字,到电商平台搜索商品,再到微信查看附近的人。我们几乎每时每刻都在用到它。所以,搜索引擎技术一直为大家关注。作者本人曾负责一些大型的分布式搜索系统,本文从个人项目出发,讲讲基于 Lucene 的核心搜索引擎技术实践。希望让大家对搜索系统有进一步了解和启发。之前,我曾分享过 Qunar 的机票搜索系统,一种基于航运业务的垂直搜索应用。
转载 2017-06-04 16:01:42
2047阅读
  编者按:这是一篇精彩的编程教学文章,不但详细地剖析了搜索引擎的原理,也提供了笔者自己对使用PHP编制搜索引擎的一些思路。整篇文章深入浅出,相信无论是高手还是菜鸟,都能从中得到不少的启发。  谈到网页搜索引擎时,大多数人都会想到雅虎。的确,雅虎开创了一个互联网络的搜索时代。然而,雅虎目前用于搜索网页的技术却并非该公司原先自己开发的。2000年8月,雅虎采用了Google(www.google.c
原创 2021-07-30 14:49:49
185阅读
今天开启一个新篇章——智能搜索与NLP。本篇章将由羸弱菜鸡小Q和大家一同学习与智能搜索相关的知识和技术,希望能和大家一同学习与进步,冲鸭!!这里首先区分两个概念:搜索和检索检索:数据库时代的概念,及将数据存入数据库,有需要的时候进行查取。对结果的要求绝对精确;比如我要在图书馆里找到所有出现“白马”字样的图书,这里用到的就是检索。搜索:互联网时代的概念,人们将信息资源放在网上,第三方将互联网的信息搜
原创 2020-12-23 15:38:44
471阅读
原创 2023-03-13 16:15:24
114阅读
原理篇 1.1搜索引擎介绍 一个搜索引擎搜索器 、索引器 、检索器 和用户接口 四个部分组成。搜索器的功能是在互联网 中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档 以及生成文档库的索引表。检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是
SEO基础知识 搜索引擎是自动从互联网搜索信息,经过一定的整理以后,提供给用户进行查询的系统。 搜索引擎发展史: ·分类目录时代 人工时代 ·文本检索时代 海量自动获取与排序清单 ·整合分析时代 立体搜索与结果整合 ·用户中心时代 以移动互联网为标志的个人需求精确搜索。 ·生活生态圈搜索
  早些时候分享过一份关于搜索引擎技术的PPT,这篇文章基本上是基于原来框架,在内容上做了一些改进和扩充。 主要是对搜索引擎技术的各方面做一些简单的介绍和入门的指引。     索引   1. 需求与历史 2. 搜索产品简介
一个搜索引擎程序主要由搜索器(Crawler)、索引器(Indexer).检索器(Searcher)和用户接口(Ul:User Interface)等四个部分组成,主要存储设备由页面存储器(Repository)和存储桶(Barrel)两部分组成。搜索器(C rawler),本质上是一种计算机爬虫(Spider)程序,它时刻不停地n动,从Internet上不断抓取各种Web网页信息,再将页面原始内
一只小狐狸带你解锁NLP/ML/DL秘籍老板~我会写倒排索引啦!我要把它放进咱们自研搜索引擎啦!我呸!你这种demo级代码,都不够当单元测试的!嘤嘤嘤,课本上就是这样讲的呀?!来来,带你见识一下工业级搜索引擎里的倒排索引是怎么优化的!前言首先回顾一下构建倒排索引的几个主要步骤:(1)收集待建索引的文档;(2)对这些文档中的文本进行词条化;(3)对第2步产生的词条进行语言学预处理,得到词项;(4)根
原创 2020-12-23 16:00:40
769阅读
有人在SEO(搜索引擎优化)QQ群里面问我什么是中文分词,鉴于时间的原因只是讲了中文分词的简单的步骤,下面我们举个例子来详细的认识下。   首先我们看下下面这个句子“上海奇商是上海地区最优秀的企业SEO咨询公司吗?”   当搜索引擎(以后一律建成SE)读到上面这句话的时候会进行第一次切词,结果如下:上、海、奇、商、是、地、区、最、优、秀、的、企、业、S、E、O、咨、询、公、司、吗   注意上面是2
转载 4月前
33阅读
  • 1
  • 2
  • 3
  • 4
  • 5