mongodb 字符串中 mongodb $text_mongodb 字符串中


文本索引能解决快速文本查找的需求,比如有一个博客文章集合,需要根据博客的内容来快速查找,则可以针对博客内容建立文本索引。

MongoDB支持在字符串内容上执行文本检索的查询操作。为了执行文本检索,它使用“text index”和“$text”操作符。

MongoDB提供的text indexes支持在字符串内容上的文本检索查询。它可以包括任何值为字符串或者字符串元素数组的字段。当然,为了执行文本检索查询,我们必须在集合上有一个 text 索引。一个集合只能拥有 一个文本检索索引,但是这个索引可以覆盖多个字段。

首先,我们先在数据库“stores”中新插入一条数据:


> db.stores.insert(
   [
     { _id: 1, name: "Java Hut", description: "Coffee and cakes" },
     { _id: 2, name: "Burger Buns", description: "Gourmet hamburgers" },
     { _id: 3, name: "Coffee Shop", description: "Just coffee" },
     { _id: 4, name: "Clothes Clothes Clothes", description: "Discount clothing" },
     { _id: 5, name: "Java Shopping", description: "Indonesian goods" }
   ]
)


接下来,使用createIndex来启动namedescription字段上的文本(text)检索。


> db.stores.createIndex({name: "text", description: "text"})
{
        "createdCollectionAutomatically" : false,
        "numIndexesBefore" : 1,
        "numIndexesAfter" : 2,
        "ok" : 1
}


$text 操作

该操作符可以在有text index的集合上执行文本检索。$text将会使用空格标点符号作为分隔符对检索字符串进行分词, 并且对检索字符串中所有的分词结果进行一个逻辑上的 OR 操作

现在,让我们通过该操作符来查寻数据中所有包含“coffee”,”shop”,“java”列表中任何词语的商店:


> db.stores.find({$text: {$search: "java coffee shop"}})
{ "_id" : 3, "name" : "Coffee Shop", "description" : "Just coffee" }
{ "_id" : 1, "name" : "Java Hut", "description" : "Coffee and cakes" }
{ "_id" : 5, "name" : "Java Shopping", "description" : "Indonesian goods" }


精确检索

可通过双引号(“ ”)包裹需要查找的内容。

下面查找所有包含“coffee shop”,“java”的数据,很明显,完全匹配这两者的只有一条数据;


> db.stores.find( { $text: { $search: "java "coffee shop"" } } )
{ "_id" : 3, "name" : "Coffee Shop", "description" : "Just coffee" }


词语排除

使用横杠(-

下面查询所有包含“java”,“shop”,但不包含“coffee”的数据:


> db.stores.find( { $text: { $search: "java shop -coffee" } } )
{ "_id" : 5, "name" : "Java Shopping", "description" : "Indonesian goods" }


排序

我们需要知道,文本检索查询会对每个文档计算一个相关性分数,表明该文档与查询的匹配程度。而MongoDB会默认返回未经排序的数据结果,这样,让我们来对返回的结果进行排序,我们可以使用这个“相关性分数”来进行排序。

为了使用相关性分数进行排序,您必须显式地对 $metatextScore


> db.stores.find(
...    { $text: { $search: "java coffee shop" } },
...    { score: { $meta: "textScore" } }
... ).sort( { score: { $meta: "textScore" } } )

{ "_id" : 3, "name" : "Coffee Shop", "description" : "Just coffee", "score" : 2.25 }
{ "_id" : 1, "name" : "Java Hut", "description" : "Coffee and cakes", "score" :1.5 }
{ "_id" : 5, "name" : "Java Shopping", "description" : "Indonesian goods", "score" : 1.5 }


$ meta:投影运算符为每个匹配的文档返回与查询关联的元数据(例如“ textScore”);

textScore:返回与每个匹配文档的相应 $ text 查询关联的分数。文字分数表示文档与搜索字词匹配的程度;如果未与 $ text查询一起使用,则返回分数。

在这次查询中,我们也多返回了表示分数的“score”,最终使用“.sort()”排序时可以看到,他们按照其高分数到低进行排列。

对于文本索引的介绍就到这里,MongoDB 还有很多种索引的方式,以后再慢慢跟大家介绍,希望你看了会有所收获,感谢阅读!