mysql 全文检索如何不分词 mysql 全文检索中文

转载

goody 2023-10-11 14:59:18

文章标签 mysql 全文检索如何不分词 mysql 全文检索系统 MySQL PHP 全文检索 文章分类 MySQL 数据库

通过MySQL内置全文检索实现中文的相关检索

关键字：MySQL 全文检索全文索引中文分词二元分词区位码相似度

注：本文使用的MySQL版本为：MySQL 4.0.x

在MySQL4中，是已经开始支持全文检索(索引)的了。但是只是对英文支持全文检索。

由于英文在书写上的特殊性，使得分词算法相对中文来说，简单得多。一般来说，我们可以通过单词与单词之间的空格，以及标点符号来完成这个分词过程。

但是就中文来说，就没有那么简单。MySQL无法对中文做出正确的分词，假设有如下英文句子：

"Hello world! Hello PHP!"

通过上面提及的方法，可以很简单的把这个句子分词为：

1 Hello

2 world

3 PHP

我们再来看看中文的句子：

"你好世界，你好PHP！"

按照英文的算法，分词如下：

1 你好世界

2 你好PHP

显然是不能满足我们的需要的。

所以，首先我们要做的是，把中文的句子转变为MySQL眼中的英文，以便使得它能以英文分词算法去对句子进行正确的分词处理。

先将上面中文句子进行标点过滤处理，得到以下句子：

你好世界你好PHP

接着再使用中文分词中较简单实现的二元分词算法对句子进行二元分词，得到以下句子：

你好好世世界你好 PHP

因为把标点符号替换为空格，以及PHP本身为英文字母的关系，可以不用进行二元切分，所以得到上面句子。

这个时候，我们来看看处理过后的句子，会发现，就其书写格式上来说，已经符合英文的书写格式，既以空格，标点来对单词形成自然间隔。只是上面句子没有标点，只有空格而已。

到此，我们已经成功的将中文“翻译”为MySQL能理解的“英文”书写格式。

但是，问题还没解决，首先，MySQL中，ft_min_word_len(分词词汇最小长度)这个参数的默认值为4，也就是4个字母以上长度的单词，才会被考虑，小于4个的，将会被忽略。

如果不改变这个长度，按照上面的分词结果，我们将无法通过你好，世界，PHP等检索到相关的结果，因为分出来的词太短了，不在MySQL的选择范围内。

我们可以通过修改ft_min_word_len的值，将其设置为2来解决上面问题，但是这样做的话，在检索列表中的原本就为英文的短小词汇，如：PHP，MP3，也会被划入检索范围内，这样做的结果是，出现很多无意义的相关结果。

请看以下列表：

[MP3] the look

[MP3] because of you

因为他们都同有MP3在标题中，所以会出现上述提到的问题。

回到ft_min_word_len值的问题，我们之所以要修改他，是为了能让MySQL找到我们的二元分

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：极客时间python 极客时间算法课怎么样

下一篇：机器学习时间序列算法时间序列算法有哪些

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

mysql 全文检索 如何不分词 mysql 全文检索 中文

mysql 全文检索 如何不分词 mysql 全文检索 中文

51CTO博客

mysql 全文检索如何不分词 mysql 全文检索中文

mysql 全文检索如何不分词 mysql 全文检索中文