在数据库领域有一种数据库叫做时序数据库,那么相比于传统的关系数据库这种数据库有什么特点呢?
首先我们需要了解一下什么是时序数据,以及它有什么特点?
什么是时序数据?
时序数据库中存储的时序数据就是带着时间戳的数据,采集时序数据的目的是监测数据的前后差异,然后做出响应。
时序数据的特点
- 一旦被存储就不会被修改
新的数据只会被添加到系统中,数据不会在将来的某个时段被修改为其他的值。 - 最近产生的数据的重要性超过老数据
- 数据量巨大
因为每隔一个时间段就会新增一批数据,所以数据量非常大。比如对于一个有5000个数据点的工厂,每秒采集一次数据,一小时的数据量就会超过18,000,000条。 - 往往是时间间隔越小差异性越小
比如某地的温度,如果用秒级监控,差异会很小
时序数据的来源
时序数据的主要来源有以下三个方面:
- IOT
主要来源是传感器,比如某点的温度、湿度、压力、电流、电压等 - 金融和科学数据
比如交易时段的证券价格,地震监控数据等 - IT 基础架构
这里的主要来源是软硬件的监控数据
为什么要用时序数据库
时序数据有数据量特别巨大的特点。数据量大需要解决两个问题:
- 每秒接收和存储数据必须快
时序数据的数据点多,更新频率高,目前时序数据普遍使用LSM技术,而不是B树来存储数据。LSM先在内存中积累数据然后再批量写入磁盘,而B树的优势在于读取而不是存储。 - 能有效压缩数据,节省存储空间
目前大部分时序数据库采用Facebook提出的Gorilla算法,简单说就是存储数据的差异,因为时序数据有频率高差异小的特点。如果直接使用传统的关系数据库来存储时序数据会需要极高的存储成本,相比传统的关系数据库,时序数据库在存储时序数据上能做到只需要 1/20 甚至更低的存储空间需求。 - 在已有数据量巨大的基础上,如何做到快速查询
很多时序数据库是列数据库,列数据库具有更好的分析数据的性能。 - 时序数据往往需要留存策略
比如几年以前的数据和最近几个月的数据处理方式和留存策略是不同的。时序数据库有相应的处理策略。
InfluxDB 和 VictoriaMetrics 谁是王者
在时序数据库领域 InfluxDB 的名气比 VictoriaMetrics 大的多,但是根据最近一项比较研究 VictoriaMetrics 才是这一领域的王者。我们来看看下面的 Benchmark:
单机性能可扩展性
- CPU线性可扩展性
从下图能够看出,VictorialMetrics 和 InfluxDB 相比有更好的线性可扩展性,在一个单核机器上可以支持510K数据点,在64核机器上可以支持高达19M数据点 - 写盘带宽需求
从下图可以看到 VictorialMetrics 对写盘时带宽占用最少,这表明它的数据压缩做的最好,而基于传统数据库的TimescaleDB,在8核时就早早地占满了整个硬盘带宽。 - 查询速度的比较
在多核机器上 VictorialMetrics 和 TimescaleDB 比 InfluxDB要快,VictorialMetrics 大幅度胜出。
读者可以从文后的参考链接中读到3个数据库的测试方法和对比详情。
结论
本文介绍了时序数据和时序数据库的特点。通过已有的 Benchmark 比较了流行的3个时序数据库。通过比较我们可以看到 VictorialMetrics 显然是3者中的王者。
参考链接:
行数据库和列数据库各有什么优势? https://valyala.medium.com/measuring-vertical-scalability-for-time-series-databases-in-google-cloud-92550d78d8ae https://redmonk.com/rstephens/2018/04/03/the-state-of-the-time-series-database-market/
https://medium.com/faun/victoriametrics-achieving-better-compression-for-time-series-data-than-gorilla-317bc1f95932