信息检索MAP求法信息检索的经典模型

转载

mob64ca1413c518 2024-07-28 16:48:24

文章标签 信息检索MAP求法信息检索权重布尔表达式 文章分类 NLP 人工智能

信息检索(IR)—信息检索模型(一)

1. 信息检索模型的概念和分类

1.1 信息检索模型的概念

信息检索模型是一个四元组 $信息检索MAP求法信息检索的经典模型_信息检索$ 所组成，其中D：表示文档集，Q表示用户的查询集合，F为文档表示，查询表示和它们之间关系的模型框架。 $信息检索MAP求法信息检索的经典模型_权重_02$ 表示排序函数，给定query $信息检索MAP求法信息检索的经典模型_信息检索_03$ 和document $信息检索MAP求法信息检索的经典模型_布尔表达式_04$ 的评分。

1.2 信息检索模型的基本分类

信息检索MAP求法信息检索的经典模型_信息检索_05

2 布尔模型

2.1 基本描述

在布尔模型中，对于信息检索模型的基本框架给出了如下的描述：

文档D表示：一个文档被表示为关键词的集合。
查询Q表示：查询Q被表示为关键词的布尔组合，用“与”、“或”、“非”连接起来。并用括号指示优先级。
匹配F：一个文档当且仅当它能够满足布尔查询时，才能将其检索出来，检索策略基于二值进行判断。
算法R：根据匹配框架F判定相关。

下面我们举一个例子来说明一下：
Q=病毒 And (计算机 Or 电脑) And Not 医
D={D1：“根据报道计算机病毒最近很猖獗”，D2:“小王是学医的，但是对于研究电脑病毒也很感兴趣”，D3:“计算机程序发现了艾滋病病毒的传播途径”}

对于上面的文档 $信息检索MAP求法信息检索的经典模型_信息检索MAP求法_06$ ，根据Q的布尔形式，我们可以发现对于文档1，其关键词的布尔形式为“病毒 And 计算机 And Not 医”，文档2的关键词的布尔形式为“病毒 And 电脑 And 医”。文档3的关键词的布尔形式为“病毒 And 计算机 And Not 医”。所以，综上所述，文档1和文档3会被检索出来。

2.2 查询表示

在布尔模型中，查询q被表示成一个常规的布尔表达式，为了方便计算q和文档d的相关度，一把将查询q的布尔表达式转换成析取范式 $信息检索MAP求法信息检索的经典模型_信息检索_07$ 。并且在查询结果中，所有的查询q和文档d的相关度都是二值的，也就是要么相关要么不相关。

下面举一个例子说明一下：假设文档集中包含两个文档。
$信息检索MAP求法信息检索的经典模型_布尔表达式_08$
$信息检索MAP求法信息检索的经典模型_权重_09$
$信息检索MAP求法信息检索的经典模型_信息检索MAP求法_10$

将查询表示为布尔表达式 $信息检索MAP求法信息检索的经典模型_信息检索MAP求法_11$ ，将其转换成析取范式为 $信息检索MAP求法信息检索的经典模型_权重_12$ ，将其转换成数字表示则有： $信息检索MAP求法信息检索的经典模型_布尔表达式_13$ ，而文档1和文档2对应query产生的关键词的结果为(1,1,0)和(1,1,1)，则返回检索结果2。

2.3 布尔模型实例

信息检索MAP求法信息检索的经典模型_信息检索_14

2.4 优劣性分析

优点：

到目前为止，由于查询简单，便于理解。并且通过使用复杂的布尔表达式，可以很方便的控制查询结果。因此布尔模型是最为常用的检索模型。并且通过某种训练，用户可以很容易的写出布尔查询q。

局限性：

布尔模型被认为是功能最弱的方式，其主要问题在于其不支持部分匹配，而完全匹配会导致太多或者太少的结果文档被返回。其次，原则上布尔模型会返回所有匹配的文档。也就是说我们很难控制检索的文档的数量。然后，对于返回的结果，其本身是无序的，在不考虑query中的词的权重，我们很难对输出进行排序。最后，当用户认为检索结果是相关或者不相关的时候，很难对于布尔式进行修改，也就是说很难进行自动的反馈。

3 向量空间模型

3.1 模型思想和描述

思想：

事物可以用一些共同的原子性的基本单元进行表示，如果将每一个原子单元视为基向量来构建一个n维度的空间，则事物就对了n维空间的一个向量。并且，向量之间的差别可以用来衡量事物之间相似度。

框架描述：

文档D：泛指文档或者文档中的一个片段(如文档中的标题，摘要，正文等等)
词项t：是指出现在文档中了能够代表文档性质的基本语言单位，也就是通常所指的检索词，这样一个文档D就可以表示为 $信息检索MAP求法信息检索的经典模型_布尔表达式_15$ ，其中n表示检索词的数量。
特性项权重 $信息检索MAP求法信息检索的经典模型_信息检索MAP求法_16$ ：是指特征项 $信息检索MAP求法信息检索的经典模型_信息检索MAP求法_17$ 能够代表文档D能力的大小。体现了特征项在文档中的重要程度。
相似度S：指两个文档内容的相关程度的大小。

3.2 模型构建

3.2.1 基本表示

首先，将文档和查询表示为词权重的向量，对于文档集合构建词权重的矩阵。如下图所示：

信息检索MAP求法信息检索的经典模型_信息检索MAP求法_18

3.2.2 词权重计算

对于词权重的计算方式有很多种，这里我们讲述最简单的一种TF-IDF计算方法。其中：
$信息检索MAP求法信息检索的经典模型_布尔表达式_19$
$信息检索MAP求法信息检索的经典模型_权重_20$
$信息检索MAP求法信息检索的经典模型_信息检索MAP求法_21$
N表示文档集中的文档总数，逆文档频率用词项区别文档。

TF-IDF计算实例：

信息检索MAP求法信息检索的经典模型_权重_22

3.2.3 相似度衡量—内积

文档D和查询Q可以通过内积进行计算：
$信息检索MAP求法信息检索的经典模型_信息检索_23$
其中 $信息检索MAP求法信息检索的经典模型_信息检索MAP求法_24$ 是文档 $信息检索MAP求法信息检索的经典模型_权重_25$ 中词项k的权重， $信息检索MAP求法信息检索的经典模型_信息检索_26$ 是查询Q中词项k的权重。