接口请求es的ik分词器 elasticsearch分词器原理

转载

mob6454cc7b19b2 2024-04-03 16:02:16

文章标签 接口请求es的ik分词器 elasticsearch 搜索引擎大数据分词器 文章分类 架构后端开发

文章目录

分词器和过滤器作用
过滤器

词干化（stemming）
高频词（stop word）
小写（lowercase）

分词器和过滤器作用

analyzer由一个分词器（tokenizers）和多个过滤器（tokenfilter）组成，分词器对日志进行分词切分（token），过滤器遍历分词器切分结果中每个分词做处理，比如将字母全部变成小写。

最后生成的分词数组，对数组中每个分词做倒排索引。

举个例子：

日志： “She’s beautiful eyes”
1. 将文本分成单词： “She’s beautiful eyes” => [She’s,beautiful,eyes]
2. 将单词大写部分转小写： “She’s” => “she’s”
3. 将所有格形式去掉：“she’s” => “she”

第1步叫做分词过程，通常英语单词是靠换行和空格分词。
第2步和第3步是过滤器，用于分词结果数组的每个元素做处理。

总结：

分词器：使用分词规则将句子切分成一个个分词（可以叫token,term,word etc…），中文和英文的分词规则不同，使用的分词器也不同，如果不指定字段的analyzer，默认的分析器就会被使用，默认的分词器只能对英文(按空格和换行符)进行分词。
过滤器：对分词进一步处理，如大小写转换，删除等，下面会具体整理下过滤器的大致种类。