什么是全文索引
全文索引,通过建立倒排索引
,可以极大的提升检索效率,解决判断字段是否包含的问题. 例如: 有title字段,需要查询所有包含 "政府"的记录. 需要 like "%政府%"方式查询,查询速度慢,当查询包含"政府" OR "中国"的需要是,sql难以简单满足.全文索引就可以实现这个功能.
倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。
1.创建全文索引(FullText index)
旧版的MySQL的全文索引只能用在MyISAM表格的char、varchar和text的字段上。
不过新版的MySQL5.6.24上InnoDB引擎也加入了全文索引,所以具体信息要随时关注官网,
CREATE TABLE article (
id INT AUTO_INCREMENT NOT NULL PRIMARY KEY,
title VARCHAR(200),
body TEXT,
FULLTEXT(title, body)
) TYPE=MYISAM;
ALTER TABLE `student` ADD FULLTEXT INDEX ft_stu_name (`name`) #ft_stu_name是索引名,可以随便起
或者:ALTER TABLE `student` ADD FULLTEXT ft_stu_name (`name`)
CREATE FULLTEXT INDEX ft_email_name ON `student` (`name`)
也可以在创建索引的时候指定索引的长度:
CREATE FULLTEXT INDEX ft_email_name ON `student` (`name`(20))
2. 删除全文索引
DROP INDEX full_idx_name ON tommy.girl ;
ALTER TABLE tommy.girl DROP INDEX ft_email_abcd;
3.使用全文索引
跟普通索引稍有不同
使用全文索引的格式: MATCH (columnName) AGAINST ('string')
eg:
SELECT * FROM `student` WHERE MATCH(`name`) AGAINST('聪')
当查询多列数据时:
建议在此多列数据上创建一个联合的全文索引,否则使用不了索引的。
SELECT * FROM `student` WHERE MATCH(`name`,`address`) AGAINST('聪 广东')
分词,全文索引以词为基础的,MySQL默认的分词是所有非字母和数字的特殊符号都是分词符(外国人嘛)
这里推荐一篇文章:利用mysql的全文索引实现模糊查询
3.2. MySQL中与全文索引相关的几个变量:
使用命令:mysql> SHOW VARIABLES LIKE 'ft%'; #ft就是FullText的简写
ft_boolean_syntax + -><()~*:""&| #改变IN BOOLEAN MODE的查询字符,不用重新启动MySQL也不用重建索引
ft_min_word_len 4 #最短的索引字符串,默认值为4,(通常改为1)修改后必须重建索引文件
重新建立索引命令:repair table tablename quick
ft_max_word_len 84 #最长的索引字符串,默认值为84,修改后必须重建索引文件
ft_query_expansion_limit 20 #查询括展时取最相关的几个值用作二次查询
ft_stopword_file (built-in) #全文索引的过滤词文件
特别注意:50%的门坎限制(当查询结果很多,几乎所有记录都有,或者极少的数据,都有可能会返回非所期望的结果)
-->可用IN BOOLEAN MODE即可以避开50%的限制。
此时使用全文索引的格式就变成了: SELECT * FROM `student` WHERE MATCH(`name`) AGAINST('聪' IN BOOLEAN MODE)
4. ft_boolean_syntax (+ -><()~*:""&|)使用的例子:
eg: +Apple 匹配:Apple123, "tommy, Apple"
eg: MATCH (girl_name) AGAINST ('-林志玲 +张筱雨')
匹配到: 所有不包含林志玲,但包含张筱雨的记录
例子:
apple banana
找至少包含上面词中的一个的记录行
+apple +juice
两个词均在被包含
+apple macintosh
包含词 “apple”,但是如果同时包含 “macintosh”,它的排列将更高一些
+apple -macintosh
包含 “apple” 但不包含 “macintosh”
例子:4.5.1.先不使用 ><
select * from tommy.girl where match(girl_name) against('张欣婷' in boolean mode);
可以看到完全匹配的排的比较靠前
4.5.2. 单独使用 >
select * from tommy.girl where match(girl_name) against('张欣婷 >李秀琴' in boolean mode);
使用了>的李秀琴马上就排到最前面了
4.5.3. 单独使用 <
select * from tommy.girl where match(girl_name) against('张欣婷 <不是人' in boolean mode);
看到没,不是人也排到最前面了,这里使用的可是 < 哦,说好的降低相关性呢,往下看吧。
4.5.4.同时使用><
select * from tommy.girl where match(girl_name) against('张欣婷 >李秀琴 <练习册 <不是人>是个鬼' in boolean mode);
到这里终于有答案了,只要使用了 ><的都会往前排,而且>的总是排在<的前面
小结一下:1. 只要使用 ><的总比没用的 靠前;
2. 使用 >的一定比 <的排的靠前 (这就符合相关性提高和降低);
3. 使用同一类的,使用的越早,排的越前。
eg: +aaa +(>bbb <ccc) // 找到有aaa和bbb和ccc,aaa和bbb,或者aaa和ccc(因为bbb,ccc前面没有+,所以表示可有可无),
然后 aaa&bbb > aaa&bbb&ccc > aaa&ccc
eg: +apple ~macintosh 先匹配apple,但如果同时包含macintosh,就排名会靠后。
MATCH (girl_name) AGAINST ('+*ABC*') #错误,不能放前面
MATCH (girl_name) AGAINST ('+张筱雨*') #正确
eg: "tommy huang" 可以匹配 tommy huang xxxxx 但是不能匹配 tommy is huang。
5.补充:Windows下无法修改 ft_min_word_len的情况,
找到你的 MySQL服务,右键Properties,找到你的my.ini所在的路径
然后使用命令 show variables like 'ft_min_word_len'; 查看是否生效了
转载地址:
成为不了聪明的人,那就做一个有耐心、肯钻研,坚持不懈,永不放弃的人……