java实现clickhouse批量更新 java批量写入clickhouse

转载

mob64ca13f6035c 2023-08-21 14:09:59

文章标签 clickhouse批量写入 jdbctemplate 批量查询 jdbctemplate批量查询 bc 数据 文章分类 Java 后端开发

一、列式库简介

ClickHouse是俄罗斯的Yandex公司于2016年开源的列式存储数据库(DBMS)，主要用于OLAP在线分析处理查询，能够使用SQL查询实时生成分析数据报告。

列式存储

java实现clickhouse批量更新 java批量写入clickhouse_bc

行式存储和列式存储，数据在磁盘上的组织结构有着根本不同，数据分析计算时，行式存储需要遍历整表，列式存储只需要遍历单个列，所以列式库更适合做大宽表，用来做数据分析计算。

絮叨一句：注意这里比较的场景，是数据分析计算的场景。

二、集群配置

1、基础环境

ClickHouse单服务默认已经安装完毕

Centos7下搭建ClickHouse列式存储数据库
SpringBoot2 整合 ClickHouse数据库

2、取消文件限制

vim /etc/security/limits.confvim /etc/security/limits.d/90-nproc.conf文件末尾追加* soft nofile 65536 * hard nofile 65536 * soft nproc 131072 * hard nproc 131072

3、取消SELINUX

修改/etc/selinux/config中的SELINUX=disabled后重启

4、集群配置文件

服务分别添加集群配置:vim /etc/metrika.xml

true192.168.72.1339000true192.168.72.1369000true192.168.72.1379000192.168.72.1332181192.168.72.1362181192.168.72.1372181192.168.72.133::/0100000000000.01lz4

注意这里

192.168.72.133

配置各自服务的IP地址。

5、启动集群

分别启动三台服务

service clickhouse-server start

6、登录客户端查看

这里登录任意一台服务就好

clickhouse-clienten-master :) select * from system.clusters

java实现clickhouse批量更新 java批量写入clickhouse_jdbctemplate批量查询_02

这里这里集群名称：clickhouse_cluster，后续使用。

7、基本环境测试

三台服务上同时创建表结构。

CREATE TABLE ontime_local (FlightDate Date,Year UInt16) ENGINE = MergeTree(FlightDate, (Year, FlightDate), 8192);

133环境创建分布表

CREATE TABLE ontime_all AS ontime_local ENGINE = Distributed(clickhouse_cluster, default, ontime_local, rand());

随便写入一台服务数据

insert into ontime_local (FlightDate,Year) values ('2020-03-12',2020);

查询总表

select * from ontime_all;

写入总表，数据会分布到各个单表中

insert into ontime_all (FlightDate,Year)values('2001-10-12',2001);insert into ontime_all (FlightDate,Year)values('2002-10-12',2002);insert into ontime_all (FlightDate,Year)values('2003-10-12',2003);

任意关闭一台服务，集群查询直接挂掉

三、集群环境整合

1、基础配置

url：配置全部的服务列表，主要用来管理表结构，批量处理；

cluster：集群连接服务，可以基于Nginx代理服务配置；

spring:  datasource:    type: com.alibaba.druid.pool.DruidDataSource    click:      driverClassName: ru.yandex.clickhouse.ClickHouseDriver      url: jdbc:clickhouse://127.0.0.1:8123/default,jdbc:clickhouse://127.0.0.1:8123/default,jdbc:clickhouse://127.0.0.1:8123/default      cluster: jdbc:clickhouse://127.0.0.1:8123/default      initialSize: 10      maxActive: 100      minIdle: 10      maxWait: 6000

2、管理接口

分别向每个单节点服务创建表和写入数据：

data_shard(单节点数据)

data_all(分布数据)

@RestControllerpublic class DataShardWeb {    @Resource    private JdbcFactory jdbcFactory ;    /**     * 基础表结构创建     */    @GetMapping("/createTable")    public String createTable (){        List jdbcTemplateList = jdbcFactory.getJdbcList();        for (JdbcTemplate jdbcTemplate:jdbcTemplateList){            jdbcTemplate.execute("CREATE TABLE data_shard (FlightDate Date,Year UInt16) ENGINE = MergeTree(FlightDate, (Year, FlightDate), 8192)");            jdbcTemplate.execute("CREATE TABLE data_all AS data_shard ENGINE = Distributed(clickhouse_cluster, default, data_shard, rand())");        }        return "success" ;    }    /**     * 节点表写入数据     */    @GetMapping("/insertData")    public String insertData (){        List jdbcTemplateList = jdbcFactory.getJdbcList();        for (JdbcTemplate jdbcTemplate:jdbcTemplateList){            jdbcTemplate.execute("insert into data_shard (FlightDate,Year) values ('2020-04-12',2020)");        }        return "success" ;    }}

3、集群查询

上述步骤执行完成后，可以连接集群服务查询分布总表和单表的数据。

基于Druid连接

@Configurationpublic class DruidConfig {    @Resource    private JdbcParamConfig jdbcParamConfig ;    @Bean    public DataSource dataSource() {        DruidDataSource datasource = new DruidDataSource();        datasource.setUrl(jdbcParamConfig.getCluster());        datasource.setDriverClassName(jdbcParamConfig.getDriverClassName());        datasource.setInitialSize(jdbcParamConfig.getInitialSize());        datasource.setMinIdle(jdbcParamConfig.getMinIdle());        datasource.setMaxActive(jdbcParamConfig.getMaxActive());        datasource.setMaxWait(jdbcParamConfig.getMaxWait());        return datasource;    }

基于mapper查询

select * from data_all where Year=2020

推荐阅读：源码 -> GitHub || GitEE

数据源管理 | 基于JDBC模式，适配和管理动态数据源

数据源管理 | PostgreSQL环境整合，JSON类型应用

数据源管理 | 基于DataX组件，同步数据和源码分析

数据源管理 | 主从库动态路由，AOP模式读写分离

数据源管理 | 关系型分库分表，列式库分布式计算

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：hiveos设置 hive offset

下一篇：python静态类变量 python静态变量的特点

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯