扩展分词列表检索：暗含检索时提高相关性，更容易排除杂质，剔出仅有关键字但不相关的文字

转载

程序无悔 2023-05-01 19:12:11

文章标签 扩展搜索引擎算法数据库数据 文章分类 JavaScript 前端开发

　　最近两个月研究了相关度搜索引擎的一些知识，对Xapian和Omega（一个基于Xapian的应用）的代码进行了一定量的修改，开发出了一款轻量级的基于中文字典词库的相关度搜索引擎。
　　这个搜索引擎的功能是：从数据库的一个表中取出内容字段的数据，利用基于中文字典词库的分词算法，建立这些数据的索引。根据索引，我们可以检索到与某条记录相关的其它记录，以及扩展分词列表。
　　扩展分词列表的概念是负责eYou邮件网关算法的同事介绍的，她认为仅凭一个分词找到相关记录的算法过于刻板，应该是先找到与这个分词语义最相关的一组分词，然后针对这组分词进行更精确的搜索。
　　上图是我将占座网随笔数据导入后的查询结果，这是一个demo页面的截图，第一篇ID为105121的文章的相关文章从第二行开始列出，看起来效果还算可以。