clickhouse 索引结构 clickhouse where

转载

mob6454cc66e0d5 2024-05-13 08:56:28

文章标签 clickhouse 索引结构 clickhouse hadoop hive 数据 文章分类 数据仓库大数据

文章目录

一、简介
二、准备工作

1、CentOS取消打开文件数限制
2、 CentOS取消SELINUX
3、关闭防火墙
4、安装依赖

三、在线安装

1、安装

1、安装命令
2、配置文件

2、副本

1、副本写入流程
2、配置

四、表引擎

1、TinyLog
2、Memory
3、MergeTree
4、二级索引
5、ReplacingMergeTree
6、SummingMergeTree

五、数据类型

1、整型
2、浮点型
3、布尔型
4、Decimal 型
5、字符串
6、枚举类型
7、时间类型
8、数组

六、SQL操作

1、Insert
2、Update 和 Delete
3、查询操作
4、alter操作
5、导出数据

一、简介

官方公开benchmark测试显示能够达到50MB-200MB/s的写入吞吐能力，按照每行100Byte估算，大约相当于50W-200W条/s的写入速度。
不支持常规意义的修改行和删除行数据。
不支持事务。
index granularity：直接翻译的话就是索引粒度，指在稀疏索引中两个相邻索引对应数据的间隔，clickhouse中的MergeTree默认是8192行

二、准备工作

1、CentOS取消打开文件数限制

在/etc/security/limits.conf、/etc/security/limits.d/20-nproc.conf这2个文件的末尾加入一下内容：

[root@hadoop102 ~]$ vim /etc/security/limits.conf

在文件末尾添加：

* soft nofile 65536 
* hard nofile 65536 
* soft nproc 131072 
* hard nproc 131072

2、 CentOS取消SELINUX

修改/etc/selinux/config中的SELINUX=disabled后重启

[root@hadoop102 ~]# vim /etc/selinux/config

SELINUX=disabled

3、关闭防火墙

4、安装依赖

yum install -y libtool
yum install -y *unixODBC*

三、在线安装

1、安装

1、安装命令

centos:

sudo yum install yum-utils
sudo rpm --import https://repo.clickhouse.tech/CLICKHOUSE-KEY.GPG
sudo yum-config-manager --add-repo https://repo.clickhouse.tech/rpm/stable/x86_64
sudo yum install clickhouse-server clickhouse-client

sudo /etc/init.d/clickhouse-server start
clickhouse-client

2、配置文件

sudo vim /etc/clickhouse-server/config.xml

把 <listen_host>::</listen_host> 的注解打开，这样的话才能让clickhouse被除本机以外的服务器访问

关闭开机自启

disable clickhouse-server

2、副本

副本的目的主要是保障数据的高可用性，即使一台clickhouse节点宕机，那么也可以从其他服务器获得相同的数据

1、副本写入流程

2、配置

这时需要启动zookeeper集群和另外一台clickhouse 服务器另外一台clickhouse 服务器的安装完全和第一台一致即可。
在两台服务器的/etc/clickhouse-server/config.d目录下创建一个名为metrika.xml的配置文件：

<?xml version="1.0"?>
<yandex>
  <zookeeper-servers>
     <node index="1">
       <host>hdp1</host>
       <port>2181</port>
     </node>
   <node index="2">
       <host>hdp2</host>
       <port>2181</port>
     </node>
<node index="3">
       <host>hdp3</host>
       <port>2181</port>
     </node>
  </zookeeper-servers>
</yandex>

在 /etc/clickhouse-server/config.xml 中增加

<include_from>/etc/clickhouse-server/config.d/metrika.xml</include_from>

在两台电脑上分别建表

A机器

create table rep_t_order_mt_0105 (
id UInt32,
sku_id String,
total_amount Decimal(16,2),
create_time Datetime
) engine
=ReplicatedMergeTree(’/clickhouse/tables/01/rep_t_order_mt_0105’,‘rep_hdp1’)
partition by toYYYYMMDD(create_time)
primary key (id)
order by (id,sku_id);

B机器

create table rep_t_order_mt_0105 (
id UInt32,
sku_id String,
total_amount Decimal(16,2),
create_time Datetime
) engine
=ReplicatedMergeTree(’/clickhouse/tables/01/rep_t_order_mt_0105’,‘rep_hdp2’)
partition by toYYYYMMDD(create_time)
primary key (id)
order by (id,sku_id);

参数解释
ReplicatedMergeTree 中，
第一参数是分片的zk_path，一般按照：
/clickhouse/table/{shard}/{table_name} 的格式写，如果只有一个分片就写01即可。
第二个参数是副本名称，相同的分片副本名称不能相同。

四、表引擎

特别注意：引擎的名称大小写敏感

create table t_tinylog ( id String, name String) engine=TinyLog;

1、TinyLog

以列文件的形式保存在磁盘上，不支持索引，没有并发控制。一般保存少量数据的小表，生产环境上作用有限。可以用于平时练习测试用。

2、Memory

内存引擎，数据以未压缩的原始形式直接保存在内存当中，服务器重启数据就会消失。读写操作不会相互阻塞，不支持索引。简单查询下有非常非常高的性能表现（超过10G/s）。
一般用到它的地方不多，除了用来测试，就是在需要非常高的性能，同时数据量又不太大（上限大概 1 亿行）的场景。

3、MergeTree

Clickhouse 中最强大的表引擎当属 MergeTree （合并树）引擎及该系列（*MergeTree）中的其他引擎。地位可以相当于innodb之于Mysql。而且基于MergeTree，还衍生除了很多小弟，也是非常有特色的引擎
建表语句

create table t_order_mt(
id UInt32,
sku_id String,
total_amount Decimal(16,2),
create_time Datetime
) engine =MergeTree
partition by toYYYYMMDD(create_time) （可选）
primary key (id) （可选）
order by (id,sku_id) （必选）

MergeTree其实还有很多参数(绝大多数用默认值即可)，但是三个参数是更加重要的

数据写入与分区合并：

任何一个批次的数据写入都会产生一个临时分区，不会纳入任何一个已有的分区。写入后的某个时刻（大概10-15分钟后），clickhouse会自动执行合并操作（等不及也可以手动通过optimize执行），把临时分区的数据，合并到已有分区中。

optimize table xxxx [final]

手动触发合并，除了合并分区还有很多别的事件会触发。
加入final选项，保证即使数据已经合并完成，也会强行合并（主要是可以保证触发其他事件）。否则的话，如果数据已经合并完成，则不会合并，也不会触发其他事件。

4、二级索引

目前在clickhouse的官网上二级索引的功能是被标注为实验性的。
所以使用二级索引前需要增加设置·

set allow_experimental_data_skipping_indices=1;

create table t_order_mt2(
id UInt32,
sku_id String,
total_amount Decimal(16,2),
create_time Datetime,
INDEX a total_amount TYPE minmax GRANULARITY 5
) engine =MergeTree
partition by toYYYYMMDD(create_time)
primary key (id)
order by (id, sku_id)

其中GRANULARITY N 是设定二级索引对于一级索引粒度的粒度。

5、ReplacingMergeTree

ReplacingMergeTree是MergeTree的一个变种，它存储特性完全继承MergeTree，只是多了一个去重的功能
去重时机：
数据的去重只会在合并的过程中出现。合并会在未知的时间在后台进行，所以你无法预先作出计划。有一些数据可能仍未被处理。
去重范围：
如果表经过了分区，去重只会在分区内部进行去重，不能执行跨分区的去重

create table t_order_rmt(
id UInt32,
sku_id String,
total_amount Decimal(16,2) ,
create_time Datetime
) engine =ReplacingMergeTree(create_time)
partition by toYYYYMMDD(create_time)
primary key (id)
order by (id, sku_id)

ReplacingMergeTree() 填入的参数为版本字段，重复数据保留版本字段值最大的。
如果不填版本字段，默认保留最后一条

6、SummingMergeTree

对于不查询明细，只关心以维度进行汇总聚合结果的场景。如果只使用普通的MergeTree的话，无论是存储空间的开销，还是查询时临时聚合的开销都比较大。

Clickhouse 为了这种场景，提供了一种能够“预聚合”的引擎

create table t_order_smt(
id UInt32,
sku_id String,
total_amount Decimal(16,2) ,
create_time Datetime
) engine =SummingMergeTree(total_amount)
partition by toYYYYMMDD(create_time)
primary key (id)
order by (id,sku_id )

以SummingMergeTree（）中指定的列作为汇总数据列。可以填写多列必须数字列，如果不填，以所有非维度列且为数字列的字段为汇总数据列。

以order by 的列为准，作为维度列。

其他的列保留第一行。

不在一个分区的数据不会被聚合

五、数据类型

1、整型

固定长度的整型，包括有符号整型或无符号整型。

整型范围（-2n-1~2n-1-1）：

Int8 - [-128 : 127]

Int16 - [-32768 : 32767]

Int32 - [-2147483648 : 2147483647]

Int64 - [-9223372036854775808 : 9223372036854775807]

无符号整型范围（0~2n-1）：

UInt8 - [0 : 255]

UInt16 - [0 : 65535]

UInt32 - [0 : 4294967295]

UInt64 - [0 : 18446744073709551615]

使用场景：个数、数量、也可以存储数字型id。

2、浮点型

Float32 - float

Float64 – double

建议尽可能以整数形式存储数据。例如，将固定精度的数字转换为整数值，如时间用毫秒为单位表示，因为浮点型进行计算时可能引起四舍五入的误差。

😃 select 1-0.9
┌───────minus(1, 0.9)─┐
│ 0.09999999999999998 │
└─────────────────────┘
使用场景：一般数据值比较小，不涉及大量的统计计算，精度要求不高的时候。比如保存商品的重量。

3、布尔型

没有单独的类型来存储布尔值。可以使用 UInt8 类型，取值限制为 0 或 1。

4、Decimal 型

有符号的浮点点数，可在加、减和乘法运算过程中保持精度。对于除法，最低有效数字会被丢弃（不舍入）。
有三种声明：Decimal32(s)，相当于Decimal(9-s,s)
Decimal64(s)，相当于Decimal(18-s,s)
Decimal128(s)，相当于Decimal(38-s,s)

s标识小数位
使用场景：一般金额字段、汇率、利率等字段为了保证小数点精度，都使用Decimal进行存储。

5、字符串

1）String
字符串可以任意长度的。它可以包含任意的字节集，包含空字节。

2）FixedString(N)
固定长度 N 的字符串，N 必须是严格的正自然数。当服务端读取长度小于 N 的字符串时候，通过在字符串末尾添加空字节来达到 N 字节长度。当服务端读取长度大于 N 的字符串时候，将返回错误消息。

与String相比，极少会使用FixedString，因为使用起来不是很方便。
使用场景：名称、文字描述、字符型编码。固定长度的可以保存一些定长的内容，比如一些编码，性别等但是考虑到一定的变化风险，带来收益不够明显，所以定长字符串使用意义有限。

6、枚举类型

包括 Enum8 和 Enum16 类型。Enum 保存 ‘string’= integer 的对应关系。
Enum8 用 ‘String’= Int8 对描述。
Enum16 用 ‘String’= Int16 对描述。

用法演示：
创建一个带有一个枚举 Enum8(‘hello’ = 1, ‘world’ = 2) 类型的列：

CREATE TABLE t_enum
(
x Enum8(‘hello’ = 1, ‘world’ = 2)
)
ENGINE = TinyLog

这个 x 列只能存储类型定义中列出的值：‘hello’或’world’。如果尝试保存任何其他值，ClickHouse 抛出异常。

😃 INSERT INTO t_enum VALUES (‘hello’), (‘world’), (‘hello’)
INSERT INTO t_enum VALUES
Ok.
3 rows in set. Elapsed: 0.002 sec.
😃 insert into t_enum values(‘a’)
INSERT INTO t_enum VALUES
Exception on client:
Code: 49. DB::Exception: Unknown element ‘a’ for type
Enum8(‘hello’ = 1, ‘world’ = 2)

从表中查询数据时，ClickHouse 从 Enum 中输出字符串值。

SELECT * FROM t_enum
┌─x─────┐
│ hello │
│ world │
│ hello │
└───────┘

如果需要看到对应行的数值，则必须将 Enum 值转换为整数类型。

SELECT CAST(x, ‘Int8’) FROM t_enum
┌─CAST(x, ‘Int8’)─┐
│ 1 │
│ 2 │
│ 1 │
└─────────────────┘

使用场景：
对一些状态、类型的字段算是一种空间优化，也算是一种数据约束。但是实际使用中往往因为一些数据内容的变化增加一定的维护成本，甚至是数据丢失问题。所以谨慎使用。

7、时间类型

目前clickhouse 有三种时间类型
Date 接受年-月-日的字符串比如 ‘2019-12-16’
Datetime 接受年-月-日时:分:秒的字符串比如 ‘2019-12-16 20:50:10’
Datetime64 接受年-月-日时:分:秒.亚秒的字符串比如 ‘2019-12-16 20:50:10.66’

日期类型，用两个字节存储，表示从 1970-01-01 (无符号) 到当前的日期值。
还有很多数据结构，可以参考官方文档：https://clickhouse.yandex/docs/zh/data_types/

8、数组

Array(T)：由 T 类型元素组成的数组。

T 可以是任意类型，包含数组类型。但不推荐使用多维数组，ClickHouse 对多维数组的支持有限。例如，不能在 MergeTree 表中存储多维数组。

可以使用array函数来创建数组：
array(T)
也可以使用方括号：
[]
创建数组案例：

😃 SELECT array(1, 2) AS x, toTypeName(x)
SELECT
[1, 2] AS x,
toTypeName(x)
┌─x─────┬─toTypeName(array(1, 2))─┐
│ [1,2] │ Array(UInt8) │
└───────┴─────────────────────────┘
1 rows in set. Elapsed: 0.002 sec.
😃 SELECT [1, 2] AS x, toTypeName(x)
SELECT
[1, 2] AS x,
toTypeName(x)
┌─x─────┬─toTypeName([1, 2])─┐
│ [1,2] │ Array(UInt8) │
└───────┴────────────────────┘
1 rows in set. Elapsed: 0.002 sec.

六、SQL操作

1、Insert

基本与标准SQL（MySQL）基本一致

包括标准 insert into [table_name] values(…),(….)

以及从表到表的插入

insert into  [table_name] select a,b,c from [table_name_2]

2、Update 和 Delete

ClickHouse提供了Delete 和Update的能力，这类操作被称为Mutation查询，它可以看做Alter 的一种。
虽然可以实现修改和删除，但是和一般的OLTP数据库不一样，Mutation语句是一种很“重”的操作，而且不支持事务。
“重”的原因主要是每次修改或者删除都会导致放弃目标数据的原有分区，重建新分区。所以尽量做批量的变更，不要进行频繁小数据的操作。
删除操作

alter table t_order_smt delete where sku_id =‘sku_001’;

修改操作

alter table t_order_smt
update total_amount=toDecimal32(2000.00,2)
where id =102;

由于操作比较“重”，所以 Mutation语句分两步执行，同步执行的部分其实只是进行新增数据新增分区和并把旧分区打上逻辑上的失效标记。知道触发分区合并的时候，才会删除旧数据释放磁盘空间。

3、查询操作

clickhouse基本上与标准SQL 差别不大。
支持子查询
支持CTE(with 子句)
支持各种JOIN，但是JOIN操作无法使用缓存，所以即使是两次相同的JOIN语句，Clickhouse也会视为两条新SQL。
不支持窗口函数。
不支持自定义函数。
GROUP BY 操作增加了 with rollup\with cube\with total 用来计算小计和总计。

with rollup :从右至左去掉维度进行小计。
with cube : 从右至左去掉维度进行小计，再从左至右去掉维度进行小计。
with totals: 只计算合计。

4、alter操作

同mysql的修改字段基本一致，
新增字段

alter table tableName add column newcolname String after col1

修改字段类型

alter table tableName modify column newcolname String；

删除字段

alter table tableName drop column newcolname ;

5、导出数据

clickhouse-client --query “select toHour(create_time) hr
 ,count(*) from test1.order_wide where dt=‘2020-06-23’ group by
 hr” --format CSVWithNames> ~/rs1.csv

支持格式的地址 https://clickhouse.tech/docs/v19.14/en/interfaces/formats/#csvwithnames

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：mac安装npm国内镜像 mac安装nodejs和npm

下一篇：监控并发现文件操作的任何变监控发现问题

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯