江南独孤客的博客_大数据篇原创博文(8)

canal1.1.5 配置kafka

1. 简介：fcanal [kə'næl]，译意为水道/管道/沟渠，主要用途是基于 MySQL 数据库增量日志解析，提供增量数据订阅和消费早期阿里巴巴因为杭州和美国双机房部署，存在跨机房同步的业务需求，实现方式主要是基于业务 trigger 获取增量变更。从 2010 年开始，业务逐步尝试数据库志解析获取增量变更进行同步，由此衍生出了大量的数据库增量订阅和消费业务。基于日志增量订阅和消费的业务包括

canal

置顶原创推荐 2021-10-12 16:51:57 5072 阅读

基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优

基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优　　Hive默认使用的计算框架是MapReduce，在我们使用Hive的时候通过写SQL语句，Hive会自动将SQL语句转化成MapReduce作业去执行，但是MapReduce的执行速度远差于Spark。通过搭建一个Hive On Spark可以修改Hive底层的计算引擎，将MapReduce替换成Spark，从而大幅度

cdh

spark

hive

置顶原创精选 2021-10-09 11:09:20 4311 阅读 1点赞 1收藏

hadoop的日常操作

一、清理空间步骤1.删除日志和回收站hdfs dfs -rm -r -skipTrash /user/*/.Trash/*hdfs dfs -rm -r -skipTrash /var/log/hadoop-yarn/apps/tools/logs/*hdfs dfs -rm -r -skipTrash /group/user/*/meta/hive-exec/*/*2.减少大表副本数a、查找大表

hadoop

置顶原创精选 2021-10-08 09:40:33 1344 阅读 7点赞 1收藏 3评论

解决clickhouse问题库中无这个张表创建时已经存在的问题

clickhouse的问题：数据库中没有看到这个表，但是创建的时候提示已经存在。09.28 13:38:34.828623 [ 15749 ] {3ebd057e-cdba-413a-a49c-a6c5c43df920} DDLWorker: Query CREATE TABLE IF NOT EXISTS athena.tb_user_local UUID '717eeed9-d8b1-42

clickhouse

置顶原创精选 2021-09-29 09:39:22 10000+阅读 13点赞 3收藏 6评论

flink滚动日志的配置

flink 1.11.0之前版本的配置################################################################################# This affects logging for both user code and Flinklog4j.rootLogger=INFO, RFA# Uncomment this if you

flink

置顶原创精选 2021-09-28 09:51:14 3496 阅读

hue创建hive表的时候显示注释乱码

问题环境软件版本CDH 6.3.0hive 2.1.1-cdh6.3.0问题原因其实hive的元数据都是存储在数据库里面，目前支持mysql,oracle,Postgres和MS SQL Server。如果我们建表发现乱码，很显然就可以归类到数据库表乱码问题。本例关联的数据库是mysql。表名如下：需要修改mysql的hive的的字符改成utf-8解决方案：在mysql对应的hiv

hive

乱码

置顶原创精选 2021-09-23 16:57:33 3891 阅读

hue无法执行批处理作业解决方案

在执行批处理作业的时候，报作业为FAILED状态查看执行的过程中发现：oozie的问题。提示hdfs的/user/oozie/share/lib目录不存在，原因是因为没有安装oozie的共享库解决方案：点击oozie角色，操作中点击安装oozie共享库。然后测试一下批处理的脚本：脚本中没有报错，问题得到解决。

hue

置顶原创精选 2021-09-22 15:03:57 1373 阅读 1收藏

CDH6.3使用JindoFS SDK无法使用hadoop distcp的问题解决

原因：原来使用的是aliyun-sdk-oss-2.8.3.jar，后来调查因为阿里的JindoFS SDK针对oss做了加速缓存，就替换成jindofs-sdk.jar，然后使用hadoop distcp复制数据到oss的时候报错如下： hadoop distcp hdfs://换成自己环境的IP:9000/group/user/tools/meta/hive-temp-table/kstj

hadoop

置顶原创 2021-09-15 20:29:43 844 阅读

hdfs出现Cannot obtain block length for LocatedBlockt

hdfs

置顶原创精选 2021-09-15 10:54:47 1395 阅读

dolphinscheduler版本差异的配置造成的故障处理

dolphinscheduler1.3.4的common.properties的配置 [root@dbos-bigdata-test003 conf]# vim /opt/dolphinscheduler/conf/common.properties 下面的这个配置中8088直接在配置成端口即可 yarn.application.status.address=http://yarnIp1:808

调度

置顶原创 2021-09-13 22:02:33 674 阅读

CDH 集群使用 JindoFS SDK 访问 OSS

CDH 集群使用 JindoFS SDK 访问 OSS CDH（Cloudera's Distribution, including Apache Hadoop）是众多Hadoop发行版本中的一种，本文以CDH 5.16.2为例介绍如何配置CDH支持使用JindoFS SDK访问OSS。步骤 1. 安装 jar 包下载最新的jar包 jindofs-sdk-x.x.x.jar (下载页面)，

hadoop

oss

置顶原创推荐 2021-09-13 13:38:45 3598 阅读

dolphinscheduler调度中执行python报错的处理过程

写了一个简单的helloworld做测试发现，这个路径并不是我环境中的路径，执行结果如下解决思路：先查看env下的ds的配置环境如下：发现这个配置是原来的配置，不是我机器上的配置，原来默认python的配置是/opt/soft/python/bin/python，这个是原来ds环境自带的，后来我改成我的测试环境的配置是：重启work节点后问题解决解决问题如下图：

调度报错处理

置顶原创推荐 2021-09-09 18:53:46 7772 阅读 1点赞

大数据中常见的数据倾斜解决的办法

第一种方案：对数据从源端进行聚合操作第二种方案：对倾斜的key进行过滤第三种方案：增加shuffle的并行度第四种方案：使用随机的key进行双重的group聚合第五种方案：将reduce join替换为map join 第六种方案：使用随机的key进行两次join操作第七种方案：使用随机数以及扩容表进行join操作

hive

数据倾斜

置顶原创 2021-09-08 10:59:31 949 阅读

Hive Staging目录占用大量HDFS空间问题分析

问题现象测试环境 1.Redhat7.4 2.CDH5.16.1 在HDFS上有许多Hive Staging目录，占用了大量的空间，有些目录占用的空间甚至比原始表还大，如下截图显示：异常重现及分析 1.使用beeline、hive、spark-shell等多种方式执行Hive SQL语句验证产生的hive staging目录是否不会被清除，结果发现在SQL执行结束

hive

原创 2021-09-03 13:31:30 1178 阅读

有关hive表占用磁盘空间大小的研究

---有关hive表占用磁盘空间大小的研究-----不加【distribute by uuid sort by uuid,servAddtime】-----16.7 Ginsert overwrite table tmp_ods_sony_opendevice_llk_ps2partition(pt='20210831')selectdevaddtime,servAddtime,brand,c

hive

原创 2021-09-01 20:47:45 881 阅读

flink 1.13.1配置报错的解决过程

部署flink提交客户端的时间报错如下：提示/tmp下无权限 flink@dbos-bigdata-flink004 ~]$ flink run -m yarn-cluster -yjm 1024 -ytm 4096 /opt/flink/examples/batch/WordCount.jarSLF4J: Class path contains multiple SLF4J bindings.

flink

原创 2021-09-01 14:34:56 4030 阅读

CDH优化篇

测试环境参考方案 1.0 资源：集群服务安排服务名称子服务 CM-24G ZK-Kafka(3台)-12G DataNode(3台)-64G NameNode1-16G NameNode2-16G Resourcemanager1-16G Resourcemanager2-16G hive-hbase-24G hive-hbase-24G MySQL MySQL √

cdh

原创 2021-08-30 19:38:12 768 阅读

CDH 6.3.0 开启ResourceManager HA（高可用）

1.点击yarn---操作---选择启用ha 2.点击选择一个主机 3.选择RM角色的另外一台主机，master001 4.选择后点击确认 5.重启yarn的服务 6.点击完成即可。 7.完成后如下图。

ha

原创 2021-08-30 14:48:03 1340 阅读 1点赞 1收藏

任务在yarn跑成功了，但是dolphinscheduler调度上显示失败的处理过程

yarn任务上面显示任务跑成功。 dolphinscheduler上显示通过服务器查看后台的work日志，有报错报错的内容是因为连接RM主机超时。查看common.properties的yarn的配置，是rm配置的主机配置错了，重新配置完后，重启work节点，重跑任务，问题解决。重启命令进入以下路径： [root@dbos-bigdata-test003 dolphinsch

问题处理

置顶原创 2021-08-05 12:58:15 2079 阅读

Apache Dolphinscheduler集群部署

集群部署(Cluster) 1、基础软件安装(必装项请自行安装) PostgreSQL (8.2.15+) or MySQL (5.7系列)：两者任选其一即可，如 MySQL 则需要 JDBC Driver 5.1.47+ JDK (1.8+)：必装，请安装好后在 /etc/profile 下配置 JAVA_HOME 及 PATH 变量 ZooKeeper (3.4.6+)：必装 Hadoop

调度

置顶原创 2021-08-05 11:45:08 2696 阅读

记录一次hadoop2.6不能使用disk.balancer均衡单节点两块磁盘数据的问题脚本

脚本如下： #!/bin/bashtop=10srcDir='/data/dfs/dn/current/BP-923028163-10.80.233.0-1621333148862/current/finalized'destDir='/data1/dfs/dn/current/BP-923028163-10.80.233.0-1621333148863/current/finalized'#进

disk.balancer

置顶原创 2021-07-15 09:30:34 489 阅读

从0开始建设大数据平台

1、大数据平台前期调研 1.1业务需求调研从运维角度看，主要调研公司的有哪业务的数据运营需求，是离线计算需求还是实时计算需求。 1）离线计算组件需求：数据采集组件：FlinkX/DataX 数据存储组件：HDFS 数据加工组件：YARN/Hive/Spark/Flink 数据服务组件：HBase/Elasticsearch/Geomesa（时空数据库）/Kylin

hadoop

原创精选 2021-06-24 15:59:05 1256 阅读

impala的session无法释放的自动清理脚本

#!/usr/bin/env python# -*- coding: utf8 -*-import requestsfrom bs4 import BeautifulSoup# 配置ip地址，格式为ips = ["ip", "ip", "ip"]for ip in ips: url = 'http://' + ip + ':25000/sessions' try: pri

impala

置顶原创 2021-06-01 14:01:25 1532 阅读

如何给Hadoop集群划分角色

规划

cdh

置顶原创 2021-06-01 13:37:10 1867 阅读

CDH的组件java调优建议值

hadoop组件部件内存hdfsJournalNodenamenode"-XX:+UseParNewGC -Xmx4096m -Xms4096m"datanodeJava Heap：8ghivehiveserver2100连接数Java Heap：30GHive Metastore100连接数Java Heap：30Gbeeline cliJava Heap：2ghive on sparkhive

CDH

置顶原创精选 2021-06-01 13:31:42 997 阅读

记录一次事故处理50%kudu表无法进行正常访问

记录一次事故处理50%kudu表无法进行正常访问测试环境kudu集群事故，影响：测试效果，测试进度，生产发布延迟，需警惕，特此写出过程操作需谨慎！操作需谨慎！操作需谨慎！任务环境都要以生产环境而对待！事故原因：昨天于上午10点，业务说kudu表无法使用后，影响测试，无法正常发布。去scm平台发现kudu_tablet挂了5台运维查看信息日志后，做近一步处理1.重启kudu—tablet发现无法启动

大数据、kudu、hdfs、hive

置顶原创 2021-05-31 10:25:12 902 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

canal1.1.5 配置kafka

基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优

hadoop的日常操作

解决clickhouse问题库中无这个张表创建时已经存在的问题

flink滚动日志的配置

hue创建hive表的时候显示注释乱码

hue无法执行批处理作业解决方案

CDH6.3使用JindoFS SDK无法使用hadoop distcp的问题解决

hdfs出现Cannot obtain block length for LocatedBlockt

dolphinscheduler版本差异的配置造成的故障处理

CDH 集群使用 JindoFS SDK 访问 OSS

dolphinscheduler调度中执行python报错的处理过程

大数据中常见的数据倾斜解决的办法

Hive Staging目录占用大量HDFS空间问题分析

有关hive表占用磁盘空间大小的研究

flink 1.13.1配置报错的解决过程

CDH优化篇

CDH 6.3.0 开启ResourceManager HA（高可用）

任务在yarn跑成功了，但是dolphinscheduler调度上显示失败的处理过程

Apache Dolphinscheduler集群部署

记录一次hadoop2.6不能使用disk.balancer均衡单节点两块磁盘数据的问题脚本

从0开始建设大数据平台

impala的session无法释放的自动清理脚本

如何给Hadoop集群划分角色

CDH的组件java调优建议值

记录一次事故处理50%kudu表无法进行正常访问

欢迎