搜索结果排序是搜索引擎最核心的构成部分,很大程度上决定了搜索引擎的质量好坏以及用户接受与否。尽管搜索引擎在实际结果排序时融合了上百种排序因子,
  但最重要的两个因素还是用户查询和网页的内容相关性以及网络链接情况。
  	判断网页内容是否与用户查询相关,这依赖于搜索引擎所采用的检索模型。布尔模型,向量空间模型,概率模型,语言模型以及机器学习排序算法。
  	尽管检索模型多种多样,但其在搜索引擎中所处的位置和功能是相同的。当用户产生了信息需求后,构造查询词,以此作为信息需求的具体体现,搜索引擎在内部
  会对用户的查询构造内部的查询表示方法。对海量的网页或者文档集合,对每个文档,在搜索系统内部也有相应的文档表示方法。搜索引擎的核心是判断哪些文档是
  和用户需求相关的,并按照相关程度来排序输出,所以相关计算是将用户查询和文档内容进行匹配的过程,而检索模型就是用来计算内容相关度的理论基础和核心部件。
  	可以将检索模型看做是:在用户需求已经很明确的由查询词表征的情况下,如何找出内容相关的文档。如果查询词不能代表用户的真实需求,那么无论检索模型再
  优秀也无济于事。

  5.1 布尔模型(Boolean Model) 
  	布尔模型是检索模型中最简单的一种,其数据基础是集合论。在布尔模型中,文档与用户查询由其包含的单词集合来表示,两者的相似性则通过布尔代数运算来进行判断。
  	布尔模型简单直观,要么相关,要么不相关。

 5.2 向量空间模型(Vector Space Model) 
  5.2.1 文档表示 
		作为表示文档的工具,向量空间模型把每个文档看做是由t维特诊组成的一个向量,特诊的定义可以采用不同的方式,可以是单词,词组,N-gram片段等多种形式,
	  最常用的还是以单词作为特征。其中每一个特征会根据一定依据计算其权重,这t维带有权重的特征共同构成一个文档,以此来表示文档的主体内容。

  5.2.2 相似性计算 
		将文档转换为特征向量后,就可以计算文档之间或者是查询和文档之间的相似性了。

  5.2.3 特征权重计算 
		文档和查询转换为特征向量时,每个特诊都会赋予一定的权值。在向量空间模型里,特诊权值的计算框架一般被称作Tf*IDF框架。词频Tf和逆袭文档IDF。

 5.3 概率检索模型 
	目前最好的检索模型。

  5.3.1 概率排序原理 
		概率检索模型是从概率排序原理推导出来的,所以理解这一原理对于理解概率检索模型非常重要。概率排序的原理的基本思想是:给定一个用户查询,如果搜索系统能够在
	  搜索结果排序时按照文档和用户需求的相关性由高到低排序,那么这个搜索系统的准确性是最优的。而在文档集合的基础上尽可能准确的对这种相关性进行估计是其核心。
	  	从概率排序原理的表述来看,这是一种直接对用户需求相关性进行建模的方法,这点和向量空间模型不同,向量空间模型是以查询和文档的内容相似性来作为相关性的
	  替代品。

  5.3.2 二元独立模型(Binary Independent Model) 
  5.3.3 BM25模型 
  5.3.4 BM25F模型 

 5.4 语言模型方法 
	是借鉴了语音识别领域采用的语言模型技术,将语言模型和信息检索互相融合的结果。
	从基本思路上看,其他的大多数检索模型的思路路径是从查询到文档,即给定用户查询,如何找出相关的文档。语言模型方法的思路正好相反,是由文档到查询这个方向,
  即为每个文档建立不同的语言模型,判断由文档生成用户查询的可能性有多大,然后按照这种概率由高到低排序,作为搜索结果。

 5.5 机器学习排序(Learning to Rank)
	随着搜索引擎的发展,对某个网页进行排序需要考虑的因素越来越多,比如网页的PageRank值,查询和文档匹配的单词个数,网页url链接地址长度等都对网页排名产生影响,
  此时机器学习的作用可以发挥出来。
  	另外一个原因,对于有监督的机器学习来说,首先需要大量的训练数据,在此基础上才可能自动学习排序模型,单靠人工标注大量的训练数据是不太现实的。对搜索引擎来说,
  尽管无法依靠人工来标注大量训练数据,但是用户点击记录是可以当做机器学习训练数据的一个替代品,比如用户发出一个查询,搜索引擎返回结果,用户会点击其中某些网页,
  可以假设用户点击的网页是和用户查询更加相关的页面。
   
  5.5.1 机器学习排序的基本思路 
		传统的检索模型依靠人工模拟排序公式,并通过不断的实验确定最佳参数组合,依次来形成相关性打分函数。机器学习排序与此思路不同,最合理的排序公式由机器学习获得,
	  而人则需要给机器学习提高训练数据。
	  	机器学习排序系统由4个部分组成:人工标注训练数据,文档特诊提取,学习分类函数,在实际搜索系统中采用机器学习模型。

  5.5.2 单文档方法(PointWise Approach) 
  5.5.3 文档对方法(PairWise Approach) 
  5.5.4 文档列表方法(ListWise Approach) 

 5.6 检索质量评价标准 
  5.6.1 精确率与召回率 
		给定一个固定的用户搜索请求,搜索系统将系统认为和用户请求相关的文档返回给用户。对于这次搜索行为,可以根据两个维度来将所有文档构成的集合分成4个互不相交的子集。
	  一个维度是:"该文档是否与用户发出的搜索请求相关"。由此维度,可以将整个文档集合划分为相关与不相关两种类型。第二个维度是:"文档是否在本次搜索结果列表内"。由此维度,
	  可以将整个文档集合分为"在本次搜索结果列表"与"不在本次搜索结果列表"两种类型。

	  	精确率:就是本次搜索结果中相关文档所占比例,分子为本次搜索结果中相关文档,坟墓为本次搜索结果包含的所有文档。
	  	召回率:本次搜索结果中包含的相关文档占整个集合中所有文档的比例,分子与精确率分子相同,即本次搜索结果中包含的相关文档,分母为整个文档结合所包含的所有文档。召回率
	  用于评价搜索系统是否把该找的文档都找出来了。

  5.6.2 P @ 10指标 
  5.6.3 MAP指标(Mean Average Precision)

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索引擎

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_机器学习_02

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_机器学习_03

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_这就是搜索引擎核心技术详解_04

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索_05

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索_06

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_这就是搜索引擎核心技术详解_07

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_这就是搜索引擎核心技术详解_08

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_机器学习_09

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_机器学习_10

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_这就是搜索引擎核心技术详解_11

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索_12

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索引擎_13

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索引擎_14

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_这就是搜索引擎核心技术详解_15

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_这就是搜索引擎核心技术详解_16

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索引擎_17

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索_18

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索_19

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_机器学习_20

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_机器学习_21

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_这就是搜索引擎核心技术详解_22

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_这就是搜索引擎核心技术详解_23

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索_24

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_这就是搜索引擎核心技术详解_25

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_机器学习_26

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索_27

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_机器学习_28

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_机器学习_29

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索_30

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_这就是搜索引擎核心技术详解_31

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_机器学习_32

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_机器学习_33

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索_34

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索引擎_35

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索引擎_36

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_这就是搜索引擎核心技术详解_37

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索_38

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_这就是搜索引擎核心技术详解_39

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_机器学习_40

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_机器学习_41

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_这就是搜索引擎核心技术详解_42

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索引擎_43

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_这就是搜索引擎核心技术详解_44

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_这就是搜索引擎核心技术详解_45

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索引擎_46

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_机器学习_47

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索_48

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索_49

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索引擎_50

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_这就是搜索引擎核心技术详解_51

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索_52

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_这就是搜索引擎核心技术详解_53

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_这就是搜索引擎核心技术详解_54

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_这就是搜索引擎核心技术详解_55

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索引擎_56

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索引擎_57

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索_58

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_这就是搜索引擎核心技术详解_59

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索_60

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_这就是搜索引擎核心技术详解_61

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_这就是搜索引擎核心技术详解_62

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_这就是搜索引擎核心技术详解_63

这就是搜索引擎核心技术详解 搜索引擎的核心技术是_搜索引擎_64