spark clickhouse 写入

转载

mob6454cc780924 2024-07-11 05:04:31

文章标签 spark clickhouse 写入任务启动负载均衡 Hive 文章分类 Spark 大数据

一、背景说明

环境说明

机器配置：32core 64GB 共4台外挂2个T磁盘（由64core128G的物理机虚拟出来2台）
DataX3.0 集成clickhouse

CK版本说明

ClickHouse client version 20.3.12.112

数据量

Hive表单分区（31个字段，数据条：78889453）

目的

测试大数据量下的datax channel数和batchSize的的合理参数设置

二、测试结果

1. 测试 数据量：78889453  channel=2  batchSize=100000

任务启动时刻                    : 2020-08-31 18:05:49
任务结束时刻                    : 2020-08-31 18:23:36
任务总计耗时                    :               1067s
任务平均流量                    :            9.05MB/s
记录写入速度                    :          74424rec/s
读出记录总数                    :            78889453
读写失败总数                    :                   0


2. 测试 数据量：78889453  channel=5  batchSize=2048
任务启动时刻                    : 2020-08-31 18:57:07
任务结束时刻                    : 2020-08-31 19:12:02
任务总计耗时                    :                895s
任务平均流量                    :           10.77MB/s
记录写入速度                    :          88639rec/s
读出记录总数                    :            78889453
读写失败总数                    :                   0


3. 测试 数据量：78889453  channel=5  batchSize=100000
任务启动时刻                    : 2020-08-31 18:35:41
任务结束时刻                    : 2020-08-31 18:44:36
任务总计耗时                    :                535s
任务平均流量                    :           18.09MB/s
记录写入速度                    :         148848rec/s
读出记录总数                    :            78889453
读写失败总数                    :                   0

4. 测试 数据量：78889453  channel=5  batchSize=200000
任务启动时刻                    : 2020-08-31 19:41:18
任务结束时刻                    : 2020-08-31 19:50:24
任务总计耗时                    :                545s
任务平均流量                    :           17.76MB/s
记录写入速度                    :         146091rec/s
读出记录总数                    :            78889453
读写失败总数                    :                   0