• 实验二:两个字符串编辑距离的计算方法实现
  • 实验三:可变字节码的编码和解码算法实现
  • 实验四:向量相似度的算法实现
  • 实验五:利用SIMNOMERGE余弦相似度计算文档得分的算法实现
  • 实验六:NB算法的训练及分类过程实现

应用python语言实现了《信息检索导论》部分实验,整理一个汇总的博客为大家指路。书籍封面如下图,大家认准教材,不要弄错。

《信息检索导论》实验python实现汇总_人工智能


所编写实验均为老师布置的作业,没有太多理论上的讲解,且各个博客的形式会太过统一和单调,希望各位不要介意。另外可能会有不全的实验,或者和自己需求不一致的情况,也望大家谅解。

实验一:倒排记录表的合并算法实现

布尔检索中需要进行倒排记录表的合并,有多种合并算法。通过实验,使学生掌握搜索系统中重要的倒排记录表的求交集的合并算法。

  1. 两个倒排记录表的合并算法。P8
  2. 输入多个词项与查询时倒排记录表的合并算法。P10
  3. 基于跳表指针的倒排记录表的合并算法。P27
  4. 邻近搜索中两个倒排记录表的搜索算法。P30

实验二:两个字符串编辑距离的计算方法实现

通过实验,使学生掌握检索系统中为实现拼写校正,计算两个字符串之间的编辑距离的方法。

实验三:可变字节码的编码和解码算法实现

检索系统中的倒排记录表所占空间巨大,因此索引压缩非常关键,可变字节码VB编码利用整数个字节对间距编码和解码,能够在时间和空间上达到一个非常好的平衡点。通过实验,使学生掌握索引压缩的可变字节码VB的编码和解码算法。

实验四:向量相似度的算法实现

向量空间模型是信息检索中最重要的形式化模型之一,向量相似度是对向量空间模型评分的重要依据。

实验五:利用SIMNOMERGE余弦相似度计算文档得分的算法实现

XML由于文档包含非常复杂的树形结构,属性之间还存在嵌套关系,属性数目也高于参数化搜索和域搜索,因此检索更为复杂。基于向量空间模型的XML搜索中,为更好地提高检索正确率,需要利用SIMNOMERGE余弦相似度计算文档得分。

实验六:NB算法的训练及分类过程实现

文本分类是信息检索系统的关键技术,多项式NB文本分类算法是有监督的基于概率的学习方法,优势是速度快,精确率很高。