江南独孤客的博客_大数据篇(2)

协助朋友推算数据均衡量

总数据量：2PB=2000TB 35台datanode(26台+9台扩容) 2000/35=58TB(平均到每台datanode) 26台近70TB的数据量(迁移前26台的数据总量) 26*70=1820TB 均衡后的26台的平均数据量 26*58=1508(26台均衡后的总量) 26台的数据差量： 1820TB-1508TB=312TB 每天移动8TB，共多少天能完成 312/8TB=3

数据

原创 6月前 57 阅读

CDH集群之YARN性能调优

本文主要讨论CDH集群的YARN调优配置，关于YARN的调优配置，主要关注CPU和内存的调优，其中CPU是指物理CPU个数乘以CPU核数，即Vcores = CPU数量*CPU核数。YARN是以container容器的形式封装资源的，task在container内部执行。集群配置集群的配置主要包括三步，第一是先规划集群的工作主机以及每台主机的配置，第二是规划每台主机的安装的组件及其资源分配，第三是

mapreduce

配置参数

Memory

置顶原创 9月前 292 阅读

CDH重启mysql后，CM重启报错的处理

[root@t3-tkbdpf-cdhtest-cdh01 cloudera-scm-server]# journalctl -xe -- Support: http://lists.freedesktop.org/mailman/listinfo/systemd-devel -- -- Unit cloudera-scm-server.service has begun starting up

cloudera

java

desktop

原创 10月前 92 阅读

NebulaGraph 3.6的迁移

环境原IP目标IP迁移的服务备注192.168.11.20192.168.11.23nebula-metadnebula-graphdnebula-storaged服务部署目录/opt/nebulagraph数据存储目录/data/nebula192.168.11.21192.168.11.24192.168.11.22192.168.11.25迁移前的准备操作系统和环境要保持一致系统存储的目录要

IP

数据存储

linux

置顶原创精选 2024-07-21 07:55:06 411 阅读

flink1.18.1配置flink on yarn模式

1.下载wget https://dlcdn.apache.org/flink/flink-1.18.1/flink-1.18.1-bin-scala_2.12.tgz --no-check-certificate2.解压 tar -xvf flink-1.18.1-bin-scala_2.12.tgz3.创建提交用户useradd flink4.授权chonwn -R flink:flink

flink

ide

sed

置顶原创 2024-06-19 15:07:43 1741 阅读 1评论

CDH下载

CDH的下载地址wget http://139.196.32.140:8080/cdh6/CDH6.3.2.tar.gz

下载地址

置顶原创 2024-06-18 11:39:47 84 阅读 1评论

CDH使用Disk Balancer平衡磁盘HDFS数据

原因:CDH HDFS集群机器上有很多块存储盘,磁盘存储空间是一样的,数据写入不均。从 CDH 5.8.2 开始，Cloudera Manager提供了一个全面的存储容量管理解决方案，可以跨节点 (Balancer)、存储类型(Mover)和单个DataNode中的磁盘(磁盘平衡器)。启用磁盘平衡器在HDFS配置中搜索safety valve，在HDFS服务高级配置代码段（安全阀）创建

hdfs

json

HDFS

置顶原创 2024-05-29 09:24:11 863 阅读 yyds干货盘点

Hive on Spark占用cpu超过100的任务告警

import requests import json from datetime import datetime import pytz from requests.auth import HTTPBasicAuth # CDH Impala API endpoint for running queries cdh_api_url = "http://192.168.0.1:7180/api/v

json

用户名

spark

置顶原创 2024-04-10 14:54:50 89 阅读 yyds干货盘点

NFS文件系统测试clickhouse验证

验证的结果：1.数据目录存到nfs的data目录下，发现系统进程无法启动，日志和数据无法写入到nfs存储2.更改到了本地的data1目录下，系统是可以正常启动。3.存到本地下的情况，创建库和表是成功的。4.官方有相关的说明，ClickHouse 不建议将 NFS（Network File System）用作数据存储的主要方式，因为 NFS 可能会影响 ClickHouse 的性能和稳定性。虽然 C

数据存储

数据

文件系统

置顶原创 2024-03-25 23:26:02 347 阅读

yarn资源占用告警

import requests import json from datetime import datetime import pytz from requests.auth import HTTPBasicAuth # CDH Impala API endpoint for running queries cdh_api_url = "http://192.168.1.1:7180/api/v

json

用户名

任务分配

置顶原创 2024-03-20 19:18:53 84 阅读

impala执行的语句告警

import requests import json from datetime import datetime import pytz from requests.auth import HTTPBasicAuth # CDH Impala API endpoint for running queries cdh_api_url = "http://192.168.1.1:7180/api/v

hdfs

json

sql

置顶原创 2024-03-12 18:31:20 68 阅读

使用spark从hive中的数据导入到nebula graph报java.net.SocketTimeoutException: Read timed out

以下是报错的内容24/02/20 17:32:21 INFO storage.BlockManagerInfo: Added broadcast_2_piece0 in memory on cdh052.dn.tcjf.com:33318 (size: 12.4 KB, free: 5.2 GB) 24/02/20 17:32:21 INFO spark.MapOutputTrackerMaste

scala

spark

java

置顶原创 2024-02-21 16:14:40 481 阅读

Apache Dolphinscheduler3版本编译zk3.4支持CDH的ZK

背景：默认是使用zk-3.8的配置，所以会出现CDH的zk不兼容问题。使用zk-3.4配置即可适配3.4.x解决办法1、#切换到项目源码的根路径中执行mvn clean package -T 1C -Prelease '-Dmaven.test.skip=true' '-Dcheckstyle.skip=true' '-Dmaven.javadoc.skip=true' '-Dzk-3.4'上述命

maven

javad

测试用例

置顶原创 2024-02-05 16:59:33 10000+阅读 2评论

StreamPark从零快速入门（本地调试、功能演示及源码分析）

flink

安装包

导入项目

置顶原创 2024-01-27 09:35:26 10000+阅读

Doris 数仓使用规范（经验版）

第一部分：字符集规范【强制】数据库字符集指定utf-8，并且只支持utf-8。命令规范【建议】库名统一使用小写方式，中间用下划线（_）分割，长度62字节内【建议】表名称大小写敏感，统一使用小写方式，中间用下划线（_）分割，长度64字节内第二部分：建表规范【强制】确保每个tablet大小为1-3G之间。举例：假设表内单分区数据量在100G，按天分区,bucket数量100个。【强烈建议】

数据

字段

3G

置顶原创精选 2024-01-02 11:23:28 10000+阅读 1点赞 1评论

CM金丝雀Canary报错

CM金丝雀Canary报错1 HDFS 金丝雀Canary 测试无法为 /tmp/.cloudera_health_monitoring_canary_files 创建父目录。2 Hive Metastore CanaryHive Metastore canary 创建 hue hdfs 主目录失败。检查：1）hdfs是否处于safemode，正常是off# hdfs dfsadmin -safe

hdfs

cloudera

错误提示

置顶原创 2023-12-20 09:42:24 10000+阅读

hive 查看表权限命令行 hive 查询表权限

一、acl权限 1、设置acl权限 hadoop fs -setfacl -R -m user:ly.feng:rw- /user/hive/warehouse/ucar.db/t_b_city 2、删除用户acl权限 hadoop fs -setfacl -x user:ly.feng /user/hive-0.13.1/warehouse/ucar.db/t_b_city 3、删除所有a

hive

ci

用户权限

置顶原创 2023-12-05 08:55:32 265 阅读

统计HDFS中文件数量、大小、以及在某范围大小的文件数量

说明：统计HDFS文件数量大小，小于20M文件数量1、HDFS 相关命令# 统计文件大小 hdfs dfs -du -h / # 统计文件数量，返回的数据是目录个数，文件个数，文件总计大小，输入路径 hdfs dfs -count / #统计所有文件的信息，过滤文件夹, 只统计文件，因为使用-ls -R 之后,可以看到文件是”-“开头，文件夹是”d”开头 hdfs dfs -ls -R /

hdfs

HDFS

数据

置顶原创 2023-12-01 17:10:49 10000+阅读

配置impala自动同步HMS元数据

由于Impala 的 Automatic Invalidate/Refresh Metadata的功能在CDH6.3版本才有的功能，通过以上两个升级，已经具备的该功能，下面是需要配置该功能测试环境1.CM和CDH版本为6.1.1(hive的版本升级到了CDH6.3.2-2.1.1)2.操作系统版本为RedHat 7.63.impala3.4版本操作步骤进入CM界面 > Hive > 配

hive

hadoop

bc

置顶原创精选 2023-11-20 20:08:01 10000+阅读

cdh6.1.1的hive升级到CDH6.3.2的hive

1.在hive创建数据库的情况下，impala无法自动刷新元数据1.1 发现问题在CDH6.1版本下创建数据库，如在hive中create database test_db; 再在impala中 show databases;没有显示test_db，说明test_db并没有刷新到Impala的catalog中，通过查找Impala Catalog的role log，发现如下的异常日志:Unexp

java

hive

apache

置顶原创精选 2023-11-20 19:01:30 10000+阅读

CDH6.1.1 impala3.1.0升级到3.4.1

本地环境硬件要求CPU 必须至少支持 SSSE3最小内存：16GB （社区推荐64G）硬盘空间：120GB（用于测试数据）仅支持Linux的操作系统Ubuntu 14.04、16.04、18.04CentOS 7编译环境一套CDH6.1.1集群，部署在三台centos7.6机器上一台同样环境的centos机器用来编译Apache Impala 3.4编译impala CDH6.1.1对应

cloudera

bc

apache

置顶原创 2023-11-20 18:06:09 10000+阅读

CDH的Hive升级后，使用spark报kryo.KryoException: java.lang.IndexOutOfBoundsException: Index: 109, Size: 6

公司用的CDH是6.1.1版本的，但是因为这个版本的impala无法自动刷hive的catlog,所以我把hive升级到了6.3.2版本的hive2.1.1了，使用mr引擎没有问题，但是我使用spark的时候就报错了23/11/20 11:39:28 ERROR rpc.RpcDispatcher: [Remote Spark Driver to HiveServer2 Connection] R

java

hive

apache

置顶原创 2023-11-20 14:32:46 717 阅读

Namenode报 failed； error=‘Cannot allocate memory‘ (errno=12)

因为我的CDH平台用的是虚拟机跑的，上面部署的服务太多了，在重启namenode以后出现down的状态，一直起不来，后来查看error日志，报以下错误：Namenode报 failed； error=‘Cannot allocate memory‘ (errno=12)一、解决办法：由于报错os::commit_memory(0x00000000fec00000, 20971520, 0)，但是经

内存分配策略

重启

内存空间

置顶原创精选 2023-11-20 09:50:05 1076 阅读 1点赞

ClouderaManager中Event Server报java.io.IOException: No sub-file with id .fnm found

晚上9点30:03.266分 ERROR EventCatcherService Error starting EventServer java.io.IOException: No sub-file with id .fnm found (fileName=_1f9.cfs files: [f474fa52c5c7e5cfdc49"resourcemanager (wyx-cdh-,

java

cloudera

lucene

置顶原创 2023-11-16 21:43:13 242 阅读

编译impala3.4.1的时候在cdh服务器上出现namenode的进入安全模式的报错

原因：我在CDH的HDFS上编译的impala3.4成功以后，HDFS的Namenode的报错进入了安全模式，报错内容如下备注：如果不了解编译的内容，最好是在新的机器上编译，不然会破坏原系统的稳定性分析原因：在编译impala的时候，脚本中更改了服务器的hosts,重新安装了java环境以上是更改了原服务器的环境的配置解决方案：1.删除java的yum安装包2.清理hosts文件夹中用脚本生成的服

服务器

HDFS

yum安装

置顶原创 2023-10-31 10:29:19 157 阅读

导出hive中所有的建表语句

#!/usr/bin/bash # 获取当前脚本所在路径 cur_dir="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)" cd ${cur_dir} # 导出所有hive数据库名 hive -e "show databases;" > ${cur_dir}/all_database.db # 删除导出文件中的警告信息 sed

hive

sql

sed

原创 2023-10-16 16:05:14 688 阅读

Impala刷新hive的元数据

1.脚本#!/bin/bash # 设置Impala的连接属性 im_host="192.168.1.1" im_port="21050" im_user="hive" im_password="11111" # 刷新元数据 echo "刷新Impala元数据..." # 执行刷新元数据的Impala命令 cmd="refresh dc_dev

元数据

hive

bc

置顶原创 2023-09-01 13:44:28 420 阅读

Hbase 删除表数据

1.Hbase 清空整个表数据注意：清空表数据是否要保留预分区# truncate会把表分区也清除掉 truncate 'namespace:tableName' # truncate_preserve只清除数据 truncate_preserve 'namespace:tableName2.删除具体数据# 删除emp表中特定的单元格数据 delete 'emp','row','col

数据

表数据

表分区

置顶原创 2023-08-03 09:29:53 435 阅读

Nebula图数据库网络监控无法显示的问题

背景：因公司使用的图数据是Nebula，在部署监控的过程发现无法获取网络监控的前端显示，原因是生产上有虚拟网络，而且不是以eth开头的，这个需要修改源码才能解决1.进入nebula-dashboard的前端修改界面cd /opt/nebula-dashboard/public2.打开main.1314ff9d9190129689ac.js修改device=~"(eth|en)[a-z0-9]*"

重启

虚拟网络

网络监控

置顶原创 2023-07-31 18:48:06 171 阅读

Hbase跨集群同步数据

增量同步add_peer '5', CLUSTER_KEY => "192.168.1.1,192.168.1.2,192.168.1.3:2181:/hbase", STATE => "ENABLED" set_peer_tableCFs '5', { "jfrcs:graph" => ["e", "f", "g", "h", "i", "l", "m", "s", "t"]

apache

hadoop

hdfs

置顶原创 2023-07-26 15:16:12 309 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

协助朋友推算数据均衡量

CDH集群之YARN性能调优

CDH重启mysql后，CM重启报错的处理

NebulaGraph 3.6的迁移

flink1.18.1配置flink on yarn模式

CDH下载

CDH使用Disk Balancer平衡磁盘HDFS数据

Hive on Spark占用cpu超过100的任务告警

NFS文件系统测试clickhouse验证

yarn资源占用告警

impala执行的语句告警

使用spark从hive中的数据导入到nebula graph报java.net.SocketTimeoutException: Read timed out

Apache Dolphinscheduler3版本编译zk3.4支持CDH的ZK

StreamPark从零快速入门（本地调试、功能演示及源码分析）

Doris 数仓使用规范（经验版）

CM金丝雀Canary报错

hive 查看表权限命令行 hive 查询表权限

统计HDFS中文件数量、大小、以及在某范围大小的文件数量

配置impala自动同步HMS元数据

cdh6.1.1的hive升级到CDH6.3.2的hive

CDH6.1.1 impala3.1.0升级到3.4.1

CDH的Hive升级后，使用spark报kryo.KryoException: java.lang.IndexOutOfBoundsException: Index: 109, Size: 6

Namenode报 failed； error=‘Cannot allocate memory‘ (errno=12)

ClouderaManager中Event Server报java.io.IOException: No sub-file with id .fnm found

编译impala3.4.1的时候在cdh服务器上出现namenode的进入安全模式的报错

导出hive中所有的建表语句

Impala刷新hive的元数据

Hbase 删除表数据

Nebula图数据库网络监控无法显示的问题

Hbase跨集群同步数据

欢迎