InfluxDB 金融数据分析 influxdb 数据量

转载

flyingsmiling 2023-10-12 15:35:39

文章标签 InfluxDB 金融数据分析数据库 java 开发语言时序数据库 文章分类 数据分析人工智能

Influxdb

简述

时间序列数据：从定义上来说，就是一串按时间维度索引的数据。
时序数据库（TSDB）特点：
持续高并发写入、无更新；
数据压缩存储；
低查询延时。
常见 TSDB：influxdb、opentsdb、timeScaladb、Druid 等。

概念

InfluxDB是一个由InfluxData开发的开源时序型数据。它由Go写成，着力于高性能地查询与存储时序型数据。InfluxDB被广泛应用于存储系统的监控数据，IoT行业的实时数据等场景

Influxdb特性

Time Series （时间序列）：你可以使用与时间有关的相关函数（如最大，最小，求和等）
Metrics（度量）：你可以实时对大量数据进行计算
Eevents（事件）：它支持任意的事件数据

组成

database: 数据库名，在 InfluxDB 中可以创建多个数据库，不同数据库中的数据文件是隔离存放的，存放在磁盘上的不同目录
retention policy: 存储策略，用于设置数据保留的时间，每个数据库刚开始会自动创建一个默认的存储策略 autogen，数据保留时间为永久，之后用户可以自己设置，例如保留最近2小时的数据。插入和查询数据时如果不指定存储策略，则使用默认存储策略，且默认存储策略可以修改。InfluxDB 会定期清除过期的数据。
measurement: 测量指标名，例如 cpu_usage 表示 cpu 的使用率
tag（带索引的，非必须；必须是字符串）、field（不带索引）、timestemp（唯一主键）

tag可理解为表中需要索引的列

特点

在influxdb中，字段必须存在。因为字段是没有索引的。如果使用字段作为查询条件，会扫描符合查询条件的所有字段值，性能不及tag。类比一下，fields相当于SQL的没有索引的列。
tags是可选的，但是强烈建议你用上它，因为tag是有索引的，tags相当于SQL中的有索引的列。tag value只能是string类型。

存储引擎

TSM是在LSM的基础上优化改善的，引入了serieskey概念，对数据实现了很好的分类组织
TSM主要由4部分组成：cache、wal、tsm file、compactor

cache：插入数据时，先写入cache再写入wal，可以认为cache是wal文件中的数据在内存中的缓存，cache中数据并不是无线增长，有一个maxSize的参数控制cache的数据占用多少内存后将数据写入tsm文件（不配置默认25MB）
wal：预写日志，对比MySql中的binlog，其中的内容和cache中的数据相同，作用就是为了持久化数据，当系统奔溃后可以通过wal文件恢复还没写入到tsm文件中的数据，当influxdb启动时，会遍历所有的wal文件，重新构造cache
tsm file:每个tsm文件的上限大小是2G。当达到 cache-snapshot-memory-size,cache-max-memory-size 的限制时会触发将 cache 写入 tsm 文件
compactor：主要进行两种操作，一种cache数据达到阀值，进行快照，生成一个新的tsm文件。另外一种就是合并当前的tsm文件，将多个合并成一个，减少文件数量，并进行一些数据删除操作。（组件在后台持续运行，每隔 1 秒会检查一次是否有需要压缩合并的数据）

存储目录

influxdb的数据存储有三个目录，分别是meta、wal、data：

meta 用于存储数据库的一些元数据，meta 目录下有一个 meta.db 文件；
wal 目录存放预写日志文件，以 .wal 结尾；
data 目录存放实际存储的数据文件，以 .tsm 结尾。

常用语句

数据库操作语句

----显示数据库
show databases
----使用某个数据库
use rain
----显示measurements（类似mysql的table）
show measurements
----使用measurements（类似mysql的table）
user test
----查询数据
select * from test
----查看一个measurement中所有的tag key
show tag keys
----查看一个measurement中所有的field key
show field keys
查看保存策略
show retention policies

----查询单个tag的value值：
show tag values from test with key="TAG_NAME"
----模糊查询（包含某个字段）：
select * from test where TAG_VALUE =~/t22/
----模糊查询（以某个字段开头）：
select * from test where TAG_VALUE =~/^t22/
----查询单个字段的值
select "age" from t_user
----插入数据：
 insert t_user,num="Z001" name="rain",sex="man",age=27
----删除操作：
delete from t3 where time = 1659336314778805600

分页查询

查询总数
SELECT COUNT(Field) FROM measurement
分页
SELECT * FROM measurement WHERE xxx LIMIT pageSize OFFSET (pageIndex-1)*pageSize
SELECT * FROM "rain"."defalut"."test" where time < now() limit 3 offset 1;
(3是每页显示数量，1是起始值)

InfluxDB 连续查询操作

----创建连续查询
CREATE CONTINUOUS QUERY "cq_user_test" ON "rain" 
RESAMPLE EVERY 10m FOR 90m 
BEGIN 
SELECT mean("age") INTO "average_age" FROM "t_user" GROUP BY time(30m) 
END 
----查看连续查询：
show continuous queries
----删除连续查询
drop continuous query "cq_user_test" ON "rain"
----