mysql 全文索引优化弊端 mysql全文索引实现原理

转载

小咪咪 2023-08-02 10:37:20

文章标签 mysql 全文索引优化弊端全文检索倒排索引 sql 文章分类 MySQL 数据库

我们前面介绍过mysql全文检索的一个插件Onesql,了解了全文检索

其实Mysql的Innodb引擎默认也是支持全文检索的，只支持英文。其背后的原理都是倒排索引

本文默认Mysql支持的全文检索

倒排索引

倒排索引跟B+树一样，也是一种数据结构。

一般利用关联数组，在辅助表中存储单词与文档中所在位置的映射。

-- 创建索引 
CREATE TABLE test(
title VARCHAR(40),
FULLTEXT(title)
);
-- 插入数据
INSERT INTO test
VALUES('Some like it hot, Some like it cold'),
('Some like it in the pot'),
('Nine days old'),
('Pease porridge in the pot'),
('Pease porridage hot, pease porridge cold'),
('Nine days old');

然后查看一下information_schema下的INNODB_FT_INDEX_TABLE表.如果不允许访问

mysql 全文索引优化弊端 mysql全文索引实现原理_倒排索引

就设置一下：SET GLOBAL innodb_ft_aux_table = 'test/test';

然后再查看一下INNODB_FT_INDEX_TABLE或者INNODB_FT_INDEX_CACHE表

mysql 全文索引优化弊端 mysql全文索引实现原理_mysql 全文索引优化弊端_02

会出现类似的记录，表明已经建立了映射关系

Innodb采用的是full inverted index的存储方式。这种方式会占用更多的空间，因为它不仅会存储单词和单词所在文档的ID，还会存储单词所在文档的ID中具体的位置。可以用一个简单的表格来解释

Number	Text	Documents
1	cold	(2:31),(6:36)
2	days	(4:5),(7:5)
3	hot	(2:13),(6:16)
4	like	(2:5)

相对的，还有一种存储方式：inverted file index，只存储单词及对应的单词所在文档。这种理节省空间，但是查找时，只能根据关键字得到相应文档，现进行查找

分词

通过上面的例子，我们发现，innodb会把单词拆分进行存储，查找时，根据单词匹配(默认是英文符号)

但是有一些词，我们可能是不能索引查询的，比如'to',这称之为stopword;

-- 默认停止词
SELECT * FROM information_schema.INNODB_FT_DEFAULT_STOPWORD;

mysql 全文索引优化弊端 mysql全文索引实现原理_倒排索引_03

或者word的字符长度不在innodb_ft_min_token_size到innodb_ft_max_token_size。默认是3-84个字符区间

INSERT INTO test VALUES
-- 90字符
('123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890'),
-- 80字符
('12345678901234567890123456789012345678901234567890123456789012345678901234567890');

插入一个80，90的字符长度，会现在只有80的字符被分词了：INNODB_FT_INDEX_CACHE表可查，

同理，也只有80的字符记录被索引

SELECT * FROM test
WHERE MATCH(title) AGAINST('12345678901234567890123456789012345678901234567890123456789012345678901234567890');

当然，也可以定制stopword，可以参考mysql stopwords

检索模式

Natural Language

上面的例子我们是用的默认的检索模式，Natural Language模式！表示查询带有指定word的文档。下面2种方式是等价的

SELECT * FROM test WHERE MATCH(title) AGAINST('what' in NATURAL LANGUAGE MODE);
SELECT * FROM test WHERE MATCH(title) AGAINST('what');

Boolean

当使用这种模式时，表示字符串前后的字符有特殊含义。比如要查找有Pease单词的记录

SELECT * FROM test WHERE MATCH(title) AGAINST('+Pease' in BOOLEAN MODE);

mysql 全文索引优化弊端 mysql全文索引实现原理_mysql 全文索引优化弊端_05

假设，我们需要查找有Pease，但是没有hot的记录呢？用+,-符号，分别表示一定存在，或者一定不存在

SELECT * FROM test WHERE MATCH(title) AGAINST('+Pease -hot' in BOOLEAN MODE);

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：docker swarm指定dns docker swarm dns 详解

下一篇：java 经纬度格式转换经纬度转换代码

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯