背景介绍假设根据业务初步预估业务量,每天5千万的数据量,我们将订单数据划分为2大类型:热数据和冷数据。热数据:2个星期内的订单数据,查询实时性较高冷数据:归档订单数据,查询频率不高根据实际业务场景,用户基本不会操作或者查询两个星期以上的数据,如果这部分数据存储在DB中,那么成本会非常高,而且也不方便维护。另外如果有特殊情况需要访问归档数据,可以走离线数据查看。知识补充离线数据:该数据流日常周期
转载
2024-05-07 20:42:48
144阅读
# 数据归档工具:MySQL与TiDB 的实现步骤
## 一、项目概述
在日常的数据库管理中,数据的归档是一个非常重要的任务,目的是将历史数据移至更低成本的存储中。本文将以MySQL和TiDB为背景,讲解如何实现一个简单的数据归档工具。
## 二、实施流程
以下是实现数据归档工具的基本步骤:
| 步骤 | 描述 |
| --
原创
2024-08-05 08:41:40
54阅读
前言介绍` pt-archiver是用来归档表的工具,可以做到低影响、高性能的归档工具,从表中删除旧数据,而不会对 OLTP 查询产生太大影响。可以将数据插入到另一个表中,该表不需要在同一台服务器上。可以将其写入适合 LOAD DATA INFILE 的格式的文件中。或者两者都不做,只做一个增量删除。 特点:1.可以根据where条件获取需要清理的数据2.支持事务批次提交,数据批次抓取3.支持插入
转载
2023-09-07 14:52:18
243阅读
操作系统:CentOS7mysql版本:5.7TiDB版本:2.0.0同步方法:使用TiDB提供的工具集进行同步 说明:单机mysql同步时,可以直接使用binlog同步,但mysql集群进行同步时,则必须依靠GTID,但开启GTID后,对事物要求更高,导致以下操作会失败:(1) 不能同时揉合多个事件;(2) 事务内部不能创建临时表;(3) 不能在同一事务中即更新InnoDB表,又更新M
冷热数据分离的目的1、ES集群异构,机器硬件资源配置不一,有高性能CPU和SSD存储集群,也有大容量的机械磁盘集群,比如我们的场景就是存放冷数据的集群,服务器都是多年前买的一批满配的4T Dell R70,但是新扩容的热节点机器均为DELL 高性能SSD磁盘和CPU的R740机器。2、对于时间型数据来说,一般是当前的数据,写入和查询较为集中,所以高性能的资源应该优先提供给这些数据使用。3、集群的搜
注意如果集群部署在 AWS 上并在使用 EBS (Elastic Block Store) 存储数据,建议使用 EBS 加密,详细信息请参考 AWS 文档 - EBS 加密。如果集群部署在 AWS 上,但未使用 EBS 存储(例如使用本地 NVMe 存储),则建议使用本文中介绍的静态加密方式。静态加密 (encryption at rest) 即在存储数据时进行数据加密。对于数据库,静态
转载
2024-08-05 22:35:54
61阅读
数据库存储引擎是数据库底层软件组织,数据库管理系统(DBMS)使用数据引擎进行创建、查询、更新和删除数据。不同的存储引擎提供不同的存储机制、索引技巧、锁定水平等功能,使用不同的存储引擎,还可以 获得特定的功能。现在许多不同的数据库管理系统都支持多种不同的数据引擎。MySql的核心就是存储引擎。存储引擎查看MySQL给开发者提供了查询存储引擎的功能,我这里使用的是MySQL5.1,可以使用:SHOW
转载
2024-01-12 12:01:58
102阅读
Clickhouse分布式表引擎(Distributed)查询核心原理解析Clickhouse分布式表引擎(Distributed)写入核心原理解析Clickhouse分布式表引擎(Distributed)查询核心原理解析与分布式数据写入时可以选择写分布式表或本地表有所不同,在面向集群查询数据的时候,只能通过Distributed表引擎实现。当Distributed表接收到SELECT查询的时候,
转载
2024-03-27 10:01:36
79阅读
笔者做过的一个项目中,同时用到了Elasticsearch和Tidb两种存储相关的产品。这两者适用的场景有些差异,但其实又有交集。前者偏向搜索,后者则主打分布式存储。下面根据自己的理解从不同维度分析下二者的相同点和不同点。对比维度ElasticsearchTiDB产地公司现在的名称是Elastic, 其实它的员工遍布世界各地,一般认为公司的总部是阿姆斯特丹公司是PinCap,在北京,是国内的公司。
转载
2024-08-21 16:37:00
167阅读
文章目录一、前言二、集群环境三、漏洞整改建议方案一方案二四、方案实施五、可能存在的风险六、总结 一、前言Etcd是一个采用HTTP协议的健/值对存储系统,它是一个分布式和功能层次配置系统,可用于构建服务发现系统。用于共享配置和服务发现的分布式,一致性的KV存储系统.其很容易部署、安装和使用,提供了可靠的数据持久化特性。在工作中,Etcd提供了 API 访问的方式,但由于未配置认证,导致Etcd
2018 年 11 月 30 日,TiDB 发布 2.1 GA 版。相比 2.0 版本,该版本对系统稳定性、性能、兼容性、易用性做了大量改进。TiDBSQL 优化器优化 Index Join 选择范围,提升执行性能优化 Index Join 外表选择,使用估算的行数较少的表作为外表扩大 Join Hint TIDB_SMJ 的作用范围,在没有合适索引可用的情况下也可使用 Merge Join加强
转载
2024-05-07 11:00:34
186阅读
MySQL 常用 OLTP 业务环境,一般会使用比较好的硬件资源来提供对外服务。现在 MySQL 数据对外提供的数据动不动好几个 T 也是正常的。在很多业务中,数据有较强的生命周期,在线一段时间后,可能就是失去业务意义,如:某个业务下线业务数据超过服务周期,例如某个业务只需要近 3 个月的数据业务操作的日志类型的数据进行归档分库分表的数据库需要合并到同一个地方,提供统计查询及分析能力定期的备份归档
转载
2023-10-27 11:26:03
204阅读
文章目录1. 背景2. 解决之道2.1 技术选型2.2 字段类型问题2.3 字段名字问题2.4 字段值内容转换3. 总结 1. 背景最近在做系统重构,由原来的单体系统重构成分布式微服务系统,原始是单个数据库,也要按业务进行数据库的垂直拆分,便于以后的业务发展扩展和数据量大了之后的分片处理。因为规范落实不够,导致之前的表和字段有部分不够规范。主要有一下的两个问题:字段类型:时间上用了int存放时间
转载
2024-05-29 00:45:47
270阅读
教程链接:MUSIC算法的直观解释:1,MUSIC算法的背景和基础知识_哔哩哔哩_bilibili MUSIC算法的直观解释:2,我对于MUSIC算法的理解_哔哩哔哩_bilibili 一、MUSIC算法作用MUSIC(Multiple Signal Classification),多重信号分类,是一类空间谱估计算法。其思想是利用接收数据的协方差矩阵(Rx)进行特征分解,分离出
简介:mysql 日志slow log和 error log归档,发现还挺麻烦的。因为如果是大文件的话,比如大于200g,如果直接copy的话,就会把IO打满,影响mysql的生产业务。一 、安全清理mysql 日志文件脚本首先处理掉大的日志文件,因为logrotate轮转时是先copy,然后再清理日志文件,会打满磁盘IO。1、把日志文件slow log和error log重命名;2、然后进入my
转载
2024-02-09 22:01:10
81阅读
集群间数据拷贝采用discp命令实现两个hadoop集群之间的递归数据复制hadoop distcp hdfs://cmaster0:8020/user/hadoop/hello.txt hdfs://hadoop102:9000/user/hadoop/hello.txtHadoop存档每个文件均按块存储,每个块的元数据存储在namenode的内存中,因此hadoop存储小文件会非常低效。因为大
转载
2024-06-30 00:31:29
59阅读
归档模式在归档模式下时,当LGWR后台进程的写操作从一个重做日志组切换到另一个重做日志组之后,归档写后台进程(ARCH/ARCn)就会将原来的重做日志文件的信息复制到归档日志文件中。可以把归档日志文件堪称是重做日志文件的克隆;要使归档的操作自动化,首先必须将数据库设置为归档模式,其次要启动归档后台进程(ARCn),还要有足够的硬盘空间以存储持续产生的归档日志文件;将数据库设置为归档模式意味:1)当
转载
2023-10-26 16:21:34
86阅读
前言随着业务量的增长,存储在 MySQL 中的数据日益剧增达到千万及上亿数据量,这就导致跟其 Join 的表的 SQL 变得很慢,对应用接口的 response time 也变长了,影响了用户体验。一般常见增长量巨大的表都是一些记录、日志类型数据,只需要保留 2 到 3 月。此时需要对表做数据清理实现瘦身。那么这么大的数据如何进行删除,而不影响数据库的正常使用呢?如何进行删除?都有哪些方案?根据前
转载
2023-12-02 20:03:30
81阅读
归档是实现数据守护系统的重要技术手段,根据功能与实现方式的不同,DM 数据库的 归档可以分为 5 类:本地归档、远程归档、实时归档、即时归档和异步归档。其中,本地 归档和远程归档日志的内容与写入时机与数据库模式相关;主库 Redo 日志写入联机日志文件后,再进行本地归档和远程归档;备库收到主库产生的 Redo 日志后,直接进行本地归档 和远程归档,同时启动 Redo 日志重演。1 本地归档 Red
转载
2024-01-27 21:01:26
68阅读
本文档介绍如何将数据从一个 TiDB 集群迁移至另一 TiDB。在如下场景中,你可以将数据从一个 TiDB 集群迁移至另一个 TiDB 集群:拆库:原 TiDB 集群体量过大,或者为了避免原有的 TiDB 集群所承载的数个业务之间互相影响,将原 TiDB 集群中的部分表迁到另一个 TiDB 集群。迁库:是对数据库的物理位置进行迁移,比如更换数据中心。升级:在对数据正确性要求严苛的场景下,可以将数据
转载
2024-01-31 22:12:23
67阅读