clickhouse三他节点部署,整理的有点乱,明天在重新整理一下。

10.1.48.12实例1端口tcp_port9000,http_port8123,interserver_http_port9009;config.xml文件为/etc/clickhouseserver/config01.xml;metrika.xml文件为/etc/clickhouseserver/metrika01.xml;users.xml文件为/etc/clickhouseserver/

原创 点赞0 阅读45 收藏0 评论0 1 天前

大数据面试题

  版本 时间 描述 V1.0 2020-12-18 创建 V1.2 2021-01-17 新增 spark 面试题 V1.3 2021-01-18 新增  kafka  面试题 V1.4 2021-01-20 新增 hbase 面试题 V1.5 2021-01-30 新增  flink  面试题     目录   Hadoo

原创 点赞0 阅读25 收藏0 评论0 3 天前

CDH6.3.0上配置各种对象存储

cm-hdfs: ufile: 还需添加jar包     S3:是自带jar包     OSS: CDH6不需要下载包, CDH5需要 core-site.xml 的群集范围高级配置代码段(安全阀)         fs.oss.endpoint oss-eu-west-1.aliyuncs.com              #oss的外网地址fs.oss.accessKeyId fs.

原创 点赞0 阅读43 收藏0 评论0 3 天前

cdh动态资源池的设置

1. 静态资源池 在CDH中,一般情况下不建议使用静态资源池,在CDH中默认的资源池是动态资源池,为什么不建议使用静态资源池,原因如下: 假设给NodeManager分配了4G内存,刚刚开始使用的时候使用了3G,一段时间后任务增多,使用到了4G内存,当任务再增多时,静态资源池会OOM,但动态资源池会从其他地方调集资源过来接着使用。 2. 动态资源池的三种默认使用池 1、使用池已在运行时指定 ,如果

原创 点赞0 阅读43 收藏0 评论0 4 天前

MySQL5.7.22主从配置

  1 文档编写目的   在生产环境中,数据库的主从配置是很有必要的,主从配置能提供数据源的备份,提供安全性方面的保障,从数据库也能减轻主数据库的访问压力,在出现故障时,也能减少损失。文档中会介绍MySQL5.7.22的主从配置步骤。   2 配置信息   操作系统:Red Hat 7.2 数据库版本:MySQL5.7.22 主节点:192.168.0.236 从节点:192.168.0.237

转载 点赞0 阅读23 收藏0 评论0 4 天前

CDH安装前置准备

hadoop实操

转载 点赞0 阅读26 收藏0 评论0 4 天前

CDH网络要求(Lenovo参考架构)

  1.组网配置     建议的Cloudera组网配置如下图,主要包含数据网络和管理网络。     2.数据网络     数据网络是用于数据访问的节点之间的私有集群数据互连,比如在集群内的节点之间移动数据,或者将数据导入到CDH集群。CDH集群通常会连接到企业内部的数据网络。     需要2个TOR交换机:一个是用作带外管理,一个是用于CDH的数据网络。节点的带外管理至少需要一个1GbE交换

转载 点赞0 阅读16 收藏0 评论0 4 天前

CDH yarn设置管理 ACL后,无法访问yarn的日志。

yarn设置acl的配置 设置以上之后,就无法查看yarn运行的flink任务的日志。提示报以下错误。 job的日志 HDFS: User [dr.who] is not authorized to view the logs for container_e25_1508567262904_0002_01_000001 in log file [i-bsbhj3uw_8041] 此时是没有权限访

原创 点赞0 阅读22 收藏0 评论0 4 天前

flink on yarn的配置及报错处理

flink的下载地址 https://archive.apache.org/dist/flink/ 我下载的是1.13.1版本的,下面配置flink on yarn模式的提交 1.下载好的tgz上传到/opt目录下面。 2.使用tar -xvf  flink.tgz 解压flink包 3.设置flink软链接   4.配置flink的环境变量 环境变量的配置 #set default j

原创 点赞1 阅读51 收藏0 评论0 4 天前

阿里云大数据服务器安装代理nginx端口转发

1.下载yum源 yum-config-manager --add-repo https://openresty.org/package/centos/openresty.repo 2.安装openresty服务 yum -y install openresty openresty-resty 3.添加nginx服务 vim /usr/lib/systemd/system/openrest

原创 点赞0 阅读77 收藏0 评论0 7 天前

一键式完全删除CDH 6.3.0脚本

 CDH集群的安装部署虽然步骤比较多,但只要严格按照文档操作,一般不会有太大问题。然而,如果安装过程中出错,或因为其它原因需要重新安装CDH,在不重装操作系统的前提下,是比较困难的。难点在于需要删除的东西太多,删除不干净非常容易造成安装失败。网上找的所谓“CDH完全卸载”其实都不够完全。经过一天的反复尝试,终于写了一个一键式删除CDH脚本,在我自己的测试环境下是可行的。删除脚本文件remove_c

原创 点赞0 阅读35 收藏0 评论0 8 天前

高可用部署二进制 Kubernetes

二进制安装k8s 节点名称 IP k8s-master-01 172.16.1.71 k8s-master-02 172.16.1.72 k8s-master-03 172.16.1.73 k8s-node-01 172.16.1.74 k8s-node-02 172.16.1.75 # 修改IP和主机名# 关闭防火墙和selinux# host解析 (五台机器都要做,太长不重复复制) [roo

原创 推荐 点赞0 阅读886 收藏1 评论0 9 天前

安装CDH 6.3.0的时候报cannot open /etc/group

  解决办法  修改文件权限chattr -i /etc/gshadowchattr -i /etc/shadowchattr -i /etc/groupchattr -i /etc/passwd

原创 点赞0 阅读36 收藏0 评论0 9 天前

Waterdrop同步hive数据到clickhouse的异常数据导致8123端口挂掉

报错日志 815842 2021.07.20 14:13:52.876678 [ 11529 ] {817bb959-534e-44b3-898c-a1a3d88b9d63} <Error> DynamicQueryHandler: Cannot send exception to client: Code: 27, e.displayText() = DB::ParsingExcep

原创 点赞0 阅读53 收藏0 评论0 10 天前

ClickHouse 的一些优化参数

      1.max_table_size_to_drop 此参数在 /etc/clickhouse-server/config.xml 中, 应用于需要删除表或分区的情况, 默认 50GB。 如果你要删除的分区或表, 数据量达到了此参数值大小, 会删除失败。 建议修改为 0, 代表无论数据多大, 都可以删除。 max_memory_usage 在 /etc/clickho

原创 点赞0 阅读18 收藏0 评论0 15 天前

Clickhouse优缺点及性能情况

优点: 1,为了高效的使用CPU,数据不仅仅按列存储,同时还按向量进行处理; 2,数据压缩空间大,减少IO;处理单查询高吞吐量每台服务器每秒最多数十亿行; 3,索引非B树结构,不需要满足最左原则;只要过滤条件在索引列中包含即可;即使在使用的数据不在索引中,由于各种并行处理机制ClickHouse全表扫描的速度也很快; 4,写入速度非常快,50-200M/s,对于大量的数据更新非常适用。 缺点:

原创 点赞0 阅读37 收藏0 评论0 15 天前

hdfs datanode通过添加数据盘扩容

最近,在生产环境中,hdfs集群数据量已达到存储的90%,亟需对存储空间进行扩容。 通过调研和实验,确定添加datanoe的存储目录比较适合我们的生产环境!在这里记录一下添加数据目录的过程。 第一步:备份hdfs-site.xml配置文件 cp hdfs-site.xml hdfs-site.xml.20210714.bak 第二步:添加数据磁盘、格式化,并挂载到/data2目录   #

原创 点赞0 阅读27 收藏0 评论0 15 天前

记录一次hadoop2.6不能使用disk.balancer均衡单节点两块磁盘数据的问题脚本

脚本如下 : #!/bin/bashtop=10srcDir='/data/dfs/dn/current/BP-923028163-10.80.233.0-1621333148862/current/finalized'destDir='/data1/dfs/dn/current/BP-923028163-10.80.233.0-1621333148863/current/finalized'#进

原创 点赞0 阅读49 收藏0 评论0 16 天前

记一次生产上单点DataNode其中一块磁盘空间不足的处理

1.如下图,此节点的datanode为两块磁盘,两块磁盘的数据放置不均衡导致hdfs、yarn、hive等服务均呈挂起状态,CDH上一片红 2.参考CDH的官网,说明如下图,支持单点磁盘级别的平衡,另外,贴出Apache hadoop 2.x和Apache hadoop3.x的官网对此参数的说明: 上图是hadoop2.6-cdh5.16.1截图 上图是Apache hadoop 3.2.1

原创 点赞0 阅读4 收藏0 评论0 16 天前

clickhouse迁移集群时同步数据报max_partitions_per_insert_bloc

报错信息 Received exception from server (version 21.3.4):Code: 252. DB::Exception: Received from localhost:9000. DB::Exception: Too many partitions for single INSERT block (more than 100). The limit is co

原创 点赞0 阅读2 收藏0 评论0 18 天前

clickhouse无法清空大表的解决办法

inster into 插入数据超过50G以后,清空表数据的时候报错如下: SQL 错误 [359]: ClickHouse exception, code: 359, host: 47.106.166.137, port: 8123; Code: 359, e.displayText() = DB::Exception: There was an error on [db-Clickhouse-

原创 点赞0 阅读8 收藏0 评论0 18 天前

从0开始建设大数据平台

  1、大数据平台前期调研 1.1业务需求调研 从运维角度看,主要调研公司的有哪业务的数据运营需求,是离线计算需求还是实时计算需求。 1)离线计算组件需求: 数据采集组件:FlinkX/DataX   数据存储组件:HDFS 数据加工组件:YARN/Hive/Spark/Flink 数据服务组件:HBase/Elasticsearch/Geomesa(时空数据库)/Kylin

原创 点赞0 阅读605 收藏0 评论0 2021-06-24

CDH下安装的hbase调参

原创 点赞0 阅读46 收藏0 评论0 2021-06-07

Cloudera官方的版本源有需要的给我留言

原创 点赞0 阅读80 收藏0 评论0 2021-06-03

Hadoop——集群参数配置详解

一、配置文件在hadoop集群中,需要配置的文件主要包括四个,分别是core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml,这四个文件分别是对不同组件的配置参数,主要内容如下表所示: 二、配置时重要参数1、core-site.xml2、hdfs-site.xml3、mapred-site.xml4、yarn-site.xml 三、搭建集群

转载 点赞0 阅读49 收藏0 评论0 2021-06-03

如何在CDP DC7.0.3安装Range

文档编写目的在前面的文章中,Fayson介绍了《如何在Redhat7.6中安装CDP DC7.0.3》和《如何在CDP DC7.0.3集群部署Flink1.9.1》,基于前面的集群环境,本篇文章Fayson主要介绍如何在CDP DC7.0.3集群安装Ranger。文档概述1.如何在CDP DC集群安装启用Ranger服务2.运行一个Flink示例验证测试环境1.操作系统Redhat7.22.CDP

转载 点赞0 阅读95 收藏0 评论0 2021-06-03

如何为Ranger集成RedHat7的OpenLDAP认证

文档编写目的在企业的生产环境中大多使用了OpenLDAP来进行用户的管理,因此本篇文章主要介绍如何在CDP DC7.0.3集群上为Ranger集成RedHat7的OpenLDAP,集成只针对使用LDAP用户登陆Ranger的Web UI,关于Ranger的安装,请参考之前的文章《0752-7.0.3-如何在CDP DC7.0.3安装Ranger》。测试环境1.操作系统Redhat7.62.集群版本

转载 点赞0 阅读32 收藏0 评论0 2021-06-03

CDH6.2离线安装(整理版)

1.概述  CDH,全称Cloudera's Distribution, including Apache Hadoop。是Hadoop众多分支中对应中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,提供了Hadoop的核心(可扩展存储、分布式计算),最为重要的是提供基于web的用户界面。  CDH的优点:版本划分清晰,更新速度快,支持Kerberos安全认证,支持多

转载 点赞0 阅读54 收藏0 评论0 2021-06-03

Hive:HiveQL中如何排查数据倾斜问题

原文:https://blog.csdn.net/u012151684/article/details/77074356如果某个key下记录数远超其他key,在join或group的时候可能会导致某个reduce任务特别慢。本文分析下join的场景。本例子SQL如下:查询每个appid打开的次数,需要排除掉作弊的imei。说明:表cheat_imei,7500万条,无大key,为作弊的imei。表

转载 点赞0 阅读36 收藏0 评论0 2021-06-02

解决hive小文件过多问题

小文件产生原因hive 中的小文件肯定是向 hive 表中导入数据时产生,所以先看下向 hive 中导入数据的几种方式直接向表中插入数据insert into table A values (1,'zhangsan',88),(2,'lisi',61);这种方式每次插入时都会产生一个文件,多次插入少量数据就会出现多个小文件,但是这种方式生产环境很少使用,可以说基本没有使用的通过load方式加载数据

转载 点赞0 阅读26 收藏0 评论0 2021-06-02
  • 1
  • 2