信息检索(IR)—信息检索模型(一)

1. 信息检索模型的概念和分类

1.1 信息检索模型的概念

信息检索模型是一个四元组信息检索MAP求法 信息检索的经典模型_信息检索所组成,其中D:表示文档集,Q表示用户的查询集合,F为文档表示,查询表示和它们之间关系的模型框架。信息检索MAP求法 信息检索的经典模型_权重_02表示排序函数,给定query 信息检索MAP求法 信息检索的经典模型_信息检索_03和document 信息检索MAP求法 信息检索的经典模型_布尔表达式_04的评分。

1.2 信息检索模型的基本分类

信息检索MAP求法 信息检索的经典模型_信息检索_05

2 布尔模型

2.1 基本描述

在布尔模型中,对于信息检索模型的基本框架给出了如下的描述:

  1. 文档D表示:一个文档被表示为关键词的集合。
  2. 查询Q表示:查询Q被表示为关键词的布尔组合,用“与”、“或”、“非”连接起来。并用括号指示优先级。
  3. 匹配F:一个文档当且仅当它能够满足布尔查询时,才能将其检索出来,检索策略基于二值进行判断。
  4. 算法R:根据匹配框架F判定相关。

下面我们举一个例子来说明一下:
Q=病毒 And (计算机 Or 电脑) And Not 医
D={D1:“根据报道计算机病毒最近很猖獗”,D2:“小王是学医的,但是对于研究电脑病毒也很感兴趣”,D3:“计算机程序发现了艾滋病病毒的传播途径”}

对于上面的文档信息检索MAP求法 信息检索的经典模型_信息检索MAP求法_06,根据Q的布尔形式,我们可以发现对于文档1,其关键词的布尔形式为“病毒 And 计算机 And Not 医”,文档2的关键词的布尔形式为“病毒 And 电脑 And 医”。文档3的关键词的布尔形式为“病毒 And 计算机 And Not 医”。所以,综上所述,文档1和文档3会被检索出来。

2.2 查询表示

在布尔模型中,查询q被表示成一个常规的布尔表达式,为了方便计算q和文档d的相关度,一把将查询q的布尔表达式转换成析取范式信息检索MAP求法 信息检索的经典模型_信息检索_07。并且在查询结果中,所有的查询q和文档d的相关度都是二值的,也就是要么相关要么不相关。

下面举一个例子说明一下:假设文档集中包含两个文档。
信息检索MAP求法 信息检索的经典模型_布尔表达式_08
信息检索MAP求法 信息检索的经典模型_权重_09
信息检索MAP求法 信息检索的经典模型_信息检索MAP求法_10

将查询表示为布尔表达式信息检索MAP求法 信息检索的经典模型_信息检索MAP求法_11,将其转换成析取范式为信息检索MAP求法 信息检索的经典模型_权重_12,将其转换成数字表示则有:信息检索MAP求法 信息检索的经典模型_布尔表达式_13,而文档1和文档2对应query产生的关键词的结果为(1,1,0)和(1,1,1),则返回检索结果2。

2.3 布尔模型实例

信息检索MAP求法 信息检索的经典模型_信息检索_14

2.4 优劣性分析

优点:

到目前为止,由于查询简单,便于理解。并且通过使用复杂的布尔表达式,可以很方便的控制查询结果。因此布尔模型是最为常用的检索模型。并且通过某种训练,用户可以很容易的写出布尔查询q。

局限性:

布尔模型被认为是功能最弱的方式,其主要问题在于其不支持部分匹配,而完全匹配会导致太多或者太少的结果文档被返回。其次,原则上布尔模型会返回所有匹配的文档。也就是说我们很难控制检索的文档的数量。然后,对于返回的结果,其本身是无序的,在不考虑query中的词的权重,我们很难对输出进行排序。最后,当用户认为检索结果是相关或者不相关的时候,很难对于布尔式进行修改,也就是说很难进行自动的反馈。

3 向量空间模型

3.1 模型思想和描述

思想:

事物可以用一些共同的原子性的基本单元进行表示,如果将每一个原子单元视为基向量来构建一个n维度的空间,则事物就对了n维空间的一个向量。并且,向量之间的差别可以用来衡量事物之间相似度。

框架描述:

  1. 文档D:泛指文档或者文档中的一个片段(如文档中的标题,摘要,正文等等)
  2. 词项t:是指出现在文档中了能够代表文档性质的基本语言单位,也就是通常所指的检索词,这样一个文档D就可以表示为信息检索MAP求法 信息检索的经典模型_布尔表达式_15,其中n表示检索词的数量。
  3. 特性项权重信息检索MAP求法 信息检索的经典模型_信息检索MAP求法_16:是指特征项信息检索MAP求法 信息检索的经典模型_信息检索MAP求法_17能够代表文档D能力的大小。体现了特征项在文档中的重要程度。
  4. 相似度S:指两个文档内容的相关程度的大小。
3.2 模型构建
3.2.1 基本表示

首先,将文档和查询表示为词权重的向量,对于文档集合构建词权重的矩阵。如下图所示:

信息检索MAP求法 信息检索的经典模型_信息检索MAP求法_18

3.2.2 词权重计算

对于词权重的计算方式有很多种,这里我们讲述最简单的一种TF-IDF计算方法。其中:
信息检索MAP求法 信息检索的经典模型_布尔表达式_19
信息检索MAP求法 信息检索的经典模型_权重_20
信息检索MAP求法 信息检索的经典模型_信息检索MAP求法_21
N表示文档集中的文档总数,逆文档频率用词项区别文档。

TF-IDF计算实例:

信息检索MAP求法 信息检索的经典模型_权重_22

3.2.3 相似度衡量—内积

文档D和查询Q可以通过内积进行计算:
信息检索MAP求法 信息检索的经典模型_信息检索_23
其中信息检索MAP求法 信息检索的经典模型_信息检索MAP求法_24是文档信息检索MAP求法 信息检索的经典模型_权重_25中词项k的权重,信息检索MAP求法 信息检索的经典模型_信息检索_26是查询Q中词项k的权重。

对于二值向量(01向量),内积是查询式中词项和文档中词项相互匹配的数量。对于加权向量,内积是查询和文档中相互匹配的词项的权重乘积之和。

我们下面举一个内积计算的实例:

信息检索MAP求法 信息检索的经典模型_信息检索_27

3.2.4 相似度计算——余弦相似度

余弦相似度是用于计算两个向量之间夹角,其计算公式是利用向量长度对内积进行归一化的结果。
信息检索MAP求法 信息检索的经典模型_信息检索_28

相似的,我们可以利用上面的例子来计算余弦相似度:

信息检索MAP求法 信息检索的经典模型_信息检索_29

3.2.5 相似度计算——其他相似度计算方式

JC系数:

信息检索MAP求法 信息检索的经典模型_信息检索MAP求法_30

3.2.5 二值向量的计算特点

信息检索MAP求法 信息检索的经典模型_布尔表达式_31

3.2.6 相似度计算实例

信息检索MAP求法 信息检索的经典模型_信息检索MAP求法_32

3.2.7 向量空间模型的优劣性分析

优势:

词权重的计算方式提高了检索的性能,部分匹配的策略使得检索结果文档集更接近用户的检索需求。在计算文检索结果之后,可以对于结果集合中的相似度值进行排序。

局限性:

各个词之间被认为是相互独立的,随着Web中的信息量的增加,会产生很多噪声信息,影响计算结果。

4 参考

  1. 哈工大—信息检索