es数据迁移 logstash es数据迁移到mysql

转载

数据挖掘者 2024-04-30 09:09:23

文章标签 es数据迁移 logstash elasticsearch mysql 搜索引擎数据源 文章分类 架构后端开发

简述

本文介绍如何通过 CloudCanal，五分钟内创建一条长期稳定运行的 MySQL -> ElasticSearch (以下简称 ES) 实时数据迁移同步链路。

技术内幕

限流

MySQL 到 ES 数据迁移同步过程中，往往会面临源端写入对端 RPS 较大问题，导致 ES 负载较大，影响业务对 ES 的正常读写。CloudCanal 为了应对这个情况，提供限流能力。同步任务创建完毕后，可在 任务详情 -> 参数设置 对源端流量进行限流。

时区处理

CloudCanal 允许用户在创建数据迁移同步任务时指定时区。写入ES 时，源端时间类型数据将会格式化并带上时区信息 , 支持用户在跨国、跨地域场景下使用。

自动创建索引和 Mapping 结构

CloudCanal 迁移同步任务支持自动将源端数据库表结构映射成 ES 索引，该过程中允许用户在 列(column/field) 级别上，个性化设置自己需要的索引和 Mapping 结构。这些设置包括：

每个列可以指定是否需要索引
可以对 text 类型的 field 设置 ES mapping 中的分词器(标准分词器)
索引分片数、副本数自定义设置

映射已建索引

用户可能已经在 ES 中提前建好了索引，这种情况下 CloudCanal 会自动探测，并允许用户配置映射，一张表可映射对端一个索引。

内置 _id 生成和 routing field 指定

写入 ES 时候 _id 用于唯一标识一个 doc。CloudCanal 数据同步默认遵循以下原则：

routing 使用 _id 值
单主键表，会默认使用源端关系表的主键列的列值作为 _id 的值
多主键表，会通过分隔符$连接多个主键列的值，组成唯一的 _id 值
无主键表，会将所有列的值通过$连接，生成唯一的 _id 值

举个"栗子"

准备 CloudCanal

如没有安装 CloudCanal，请参考CloudCanal安装教程安装
下面例子介绍如何创建一个 MySQL->ElasticSearch 的迁移同步任务

添加数据源

CloudCanal 支持 6.8 及以上版本 ES，我们点击 数据源管理->新增数据源 添加 ES 数据源
填写必要 host 信息后点击 新增数据源

创建任务

点击任务管理，选择创建任务

数据源设置

勾选源端和目标端数据库，并且选择相应的数据库

功能配置

选择数据同步，并勾选数据初始化(带全量迁移)

表&ACTION过滤

此处可以进行的操作主要是：

勾选需要订阅的表
选择需要映射的索引（支持映射已经存在的索引）
勾选 IUD 过滤
批量设置分片数

tips: CloudCanal的结构迁移支持自动帮用户按照源端表结构创建索引

数据处理

本页面提供的主要能力有：

列裁剪设置(包括批量筛选和设置)
设置源端where过滤条件
索引设置
分词器设置
列映射（如果同步的是已经存在的索引，支持列映射）

创建确认

最后一步，确认创建内容无误后点击确认创建。

查看任务状态

回到 CloudCanal 控制台，刷新并查看任务实时状态，从结构迁移、数据初始化，到数据同步。
登录 ES Kibana 控制台，查看迁移同步过去的结构和数据。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：kalilinux 设置 iptables kali linux ip地址

下一篇：单目相机PnP姿态估计 python 单目相机深度估计

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯