es底层数据存储结构 es数据存储过程

转载

mob64ca1405664d 2024-02-15 11:23:02

文章标签 es底层数据存储结构 ES 倒排关键词映射到文档id elasticsearch 文章分类 架构后端开发

es底层数据存储结构 es数据存储过程_关键词映射到文档id

elasticsearch写入数据时涉及到的核心概念讲解：
segment file: 存储倒排索引的文件，每个segment本质上就是一个倒排索引，每秒都会生成一个segment文件，当文件过多时es会自动进行segment merge（合并文件），合并时会同时将已经标注删除的文档物理删除；

commit point（重点理解）: 记录当前所有可用的segment，每个commit point都会维护一个.del文件（es删除数据本质是不属于物理删除），当es做删改操作时首先会在.del文件中声明某个document已经被删除，文件内记录了在某个segment内某个文档已经被删除，当查询请求过来时在segment中被删除的文件是能够查出来的，但是当返回结果时会根据commit point维护的那个.del文件把已经删除的文档过滤掉；

translog日志文件: 为了防止elasticsearch宕机造成数据丢失保证可靠存储，es会将每次写入数据同时写到translog日志中(图中会有详解)。

refresh
es接收数据请求时先存入内存中，默认每隔一秒会从内存buffer中将数据写入filesystem cache，这个过程叫做refresh；

fsync
translog会每隔5秒或者在一个变更请求完成之后执行一次fsync操作，将translog从缓存刷入磁盘，这个操作比较耗时，如果对数据一致性要求不是跟高时建议将索引改为异步，如果节点宕机时会有5秒数据丢失;flush

es默认每隔30分钟会将filesystem cache中的数据刷入磁盘同时清空translog日志文件，这个过程叫做flush。

倒排索引
正向索引

分词提取关键字

如：

“文档1”经过分词，提取了20个关键字，每个关键词都会记录在它的文档中的出现次数和文档id；

正向索引：需要扫描索引库中的所有文档，根据打分模型，排出名词后呈现给用户。

文件id->关键词的映射

关键词->文件id列表

{
	 "关键词":带有此关键词的文档ID列表。
}

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：若依docker部署微服务 docker部署微服务的好处

下一篇：nginx host多级正则 nginx location正则

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

es底层数据存储结构 es数据存储过程

es底层数据存储结构 es数据存储过程

51CTO博客