江南独孤客的博客_大数据篇原创博文

HDFS小文件数据采集到hive分析并治理

一、创建HDFS的fsimage_info_csv表CREATE TABLE `fsimage_info_csv`( `path` string, `replication` int, `modificationtime` string, `accesstime` string, `preferredblocksize` bigint, `blocks

HDFS

hdfs

CSV

置顶原创 1月前 127 阅读 1点赞

Doris 核心技术解析：FE/BE 架构、数据分片、表模型优化与资源隔离

Doris 是一款 MPP 架构的 OLAP 引擎，核心目标是支持高并发、低延迟的数据分析查询，其架构设计、数据分片策略、表模型优化和资源隔离机制直接决定了查询性能与系统稳定性。以下从四个维度展开详细解析。一、Doris FE 与 BE 核心架构Doris 架构分为前端节点（FE）和后端节点（BE），两者各司其职且通过心跳机制协同工作，整体架构具备高可

字段

数据

元数据

原创 1月前 372 阅读

Flink 运维全指南：监控、问题排查、优化与实战

Flink 作为分布式流处理引擎，在实时数据处理领域扮演着核心角色。然而，其复杂的架构和动态特性给运维带来了巨大挑战。本文将系统性地介绍 Flink 的运维体系，深入剖析常见问题及其排查方法，并提供详细的解决方案和代码示例，帮助运维工程师和开发者构建稳定、高效的 Flink 集群。一、 Flink 运维基础：构建可观测性体系1. 核心监控指标与工具Flink 的可观测性是运维的基石，主要依赖以下组

UI

Web

搜索

原创 1月前 147 阅读 1点赞 1收藏

Doris vs StarRocks vs ClickHouse：新一代MPP引擎的终极对决

随着大数据技术的飞速发展，企业对实时数据分析、高并发查询和复杂分析场景的需求日益增长。传统数据仓库在面对海量数据和高时效性要求时逐渐暴露出性能瓶颈。为此，基于MPP（Massively Parallel Processing，大规模并行处理）架构的新一代分析型数据库应运而生。其中，Apache Doris、StarRocks 和 ClickHouse 成为当前最受关注

向量化

高并发

Apache

原创 1月前 403 阅读

大数据里的老大难：如何优雅解决数据倾斜？

在大数据计算领域，最让人头疼的问题之一就是数据倾斜。它常常是导致任务跑得慢、集群资源被白白浪费、甚至直接失败的元凶。别看名字挺玄乎，其实本质并不复杂。1. 数据倾斜的本质原因一句话：数据分布不均导致计算资源不均。更具体点说：如果某些 Key 的数据量远远大于其他 Key，那就会导致部分计算节点的任务负担过重，结果就是——有的 Task 很快跑完，有的 Task 却累得要死要活，整个任务

数据倾斜

随机数

字段

原创 1月前 115 阅读

数据仓库监控体系搭建：任务告警/资源调度的自动化方案

一、引言数据仓库作为企业数据资产的核心存储和分析平台，其稳定性和可靠性直接影响业务决策的质量与时效。随着数据规模不断扩大和业务需求日益复杂，传统的人工监控方式已无法满足现代数据仓库的管理需求。本文将详细探讨如何构建一套完整的数据仓库监控体系，重点聚焦任务告警和资源调度的自动化方案，帮助数据团队实现高效、可靠的仓库运维管理。二、数据仓库监控体系概述2.1 监控体系的核心目标一个完善的数据仓库监控体系

数据

ci

数据仓库

原创 1月前 86 阅读

Hadoop高频面试题列表（HDFS/MapReduce/YARN）

数据

Hadoop

HDFS

原创 1月前 59 阅读

面试官逼问Shuffle细节怎么办？这篇终极指南让你对答如流，倒背如流！

在大数据面试中，尤其是涉及 Hadoop MapReduce、Spark 等分布式计算框架时，Shuffle 是一个绕不开的核心话题。许多面试官会层层追问 Shuffle 的底层实现、性能瓶颈、优化策略，甚至要求你手绘流程图或对比不同框架的 Shuffle 差异。如果你对 Shuffle 的理解停留在“数据从 Map 端传到 Reduce 端”这种模糊层面，那么在面试

数据

网络传输

数据倾斜

原创 1月前 97 阅读

hive优化十大法则

在大数据处理领域，Apache Hive 作为构建在 Hadoop 之上的数据仓库工具，广泛应用于离线数据分析。然而，随着数据量不断增长，Hive 查询性能问题日益突出——许多原本几分钟的查询逐渐演变为数小时的“慢查询”，严重影响开发效率和业务响应速度。本文基于真实生产环境优化经验，总结出 Hive 优化十大法则，通过系统性调优手段，将一个原本耗时 2 小时的复杂 Hive 查询成功优化

hive

Hive

数据

原创 1月前 115 阅读

大数据超时30分钟以上的任务告警脚本

from impala.dbapi import connect import requests import json import os # 配置参数 IMPALA_HOST = os.getenv('IMPALA_HOST', '192.168.0.1') IMPALA_PORT = int(os.getenv('IMPALA_PORT', 21050)) IMPALA_USER = os

json

unix

ci

置顶原创 1月前 39 阅读

大数据任务治理分析

1.写python脚本，把yarn任务上执行的记录导入到本地jsonimport requestsimport xmltodictimport jsonfrom datetime import datetime # 新增日期处理模块 # 获取当前日期并格式化为YYYYMMDDcurrent_date = datetime.no

unix

json

xml

置顶原创 2月前 142 阅读

impala报错的告警脚本

import requests import json from datetime import datetime, timedelta import pytz import time import re from requests.auth import HTTPBasicAuth # 配置项 CDH_API_URL = "http://192.168.0.10:7180/api/v33/cl

json

API

错误类型

置顶原创 2月前 89 阅读

创建计划调整Yarn资源队列

1.创建计划模式配置集：pool_night 重复:每天 night: 晚上10:00~上午10:00 配置集：pool_day重复:每天 day: 上午10:00~晚上10:00 2.修改资源池1.default已经失去了作用2.调整白天的时间段的选择pool_day(每个用户就会变成500C+1000G的资源池)查看是否生效：pool_day已经生效3.调整晚上的T+1调度时间选择pool_

时间段

置顶原创 3月前 106 阅读

CDH6.3.2 集成 tez0.9.1 修改执行引擎为Tez

1.安装maven1.1 下载mavenhttps://maven.apache.org/download.cgi1.2上传解压tar -zxvf apache-maven-3.6.3-bin.tar.gz -C /opt1.3 配置 MVN_HOMR[root@cluster2-slave2 ~]# vim /etc/profileexport MVN_HOME=/data/module/ap

maven

apache

xml

置顶原创 3月前 139 阅读

大数据lDAP自动修改密码

#!/bin/bash # OpenLDAP Password Reset Utility # Usage: # 管理员模式: ./ldap-pw-reset.sh -a <admin_dn> -u <user_dn> [-s <ldap_server>] # 用户模式: ./ldap-pw-reset.sh -u <user_dn> [-

修改密码

密码修改

服务器

置顶原创 3月前 109 阅读

Impala因为hive建表刷新元数据失败监控告警后修复

1.添加服务cat /etc/systemd/system/catalogd-monitor.service [Unit] Description=CDH Catalogd Log Monitor [Service] ExecStart=/opt/scripts/catalogd_monitor.sh Restart=always RestartSec=5s [Install] WantedB

元数据

json

vim

置顶原创 4月前 206 阅读

CDH6.3.2 升级 Spark3.3.0 版本

背景由于 CDH6.3.2 以上，已不开源。常用组件只能自编译升级，比如 Spark 。看网上的资料，有人说 Spark3 的 SQL 运行性能比 Spark2 可提升 20%，本人未验证，但是 Spark3 的 AE 功能的确很香，能自适应解决 Spark SQL 的数据倾斜。下载软件软件版本：jdk-1.8、maven-3.8.4、scala-2.12.15 、spark-3.3.0说明：ma

spark

cloudera

hadoop

置顶原创精选 4月前 419 阅读

HDFS RPC延迟的解决办法

解决办法： 1.根据审计日志查出来的ip，通知相应的同学，停止对那个超大目录的count操作，用其他合理的方式代替 2.其它需要优化的 NameNode 配置（修改完成后，需要重启 NameNode 生效）： a. 8021 端口的 handler 个数（dfs.namenode.servic

重启

置顶原创 4月前 121 阅读

Yarn LevelDb文件过大导致重启NM失败问题分析

一、问题描述近期滚动重启Yarn NodeMagager时（hadoop版本3.0.0），发现滚动重启NM会卡很久，然后滚动重启失败（测试了好几台，基本都滚动重启失败）深入排查后，发现失败的原因如下：NM在启动的时候会去加载yarn-nm-recovery下面的leveldb数据库，主要是为了恢复机器上正在运行的container的相关信息。我们发现，重启失败的NM在启动的时候一直卡在读取leve

重启

db数据库

List

置顶原创 4月前 142 阅读

sftp数据拉到hdfs中表中

#!/usr/bin/env -S bash --posix # 文件名：sftp_to_hdfs.sh # 功能：多用户动态日期目录的SFTP数据拉取（自动删除.ok文件）并上传HDFS # 作者：王昱翔 # 版本：2.0（新增自动删除.ok文件功能） set +o posix # -------------------------------- 配置参数 ----------------

HDFS

hdfs

上传

置顶原创 4月前 94 阅读

Impala查询超过10万行的报错LLVM hit fatal error: Cannot select: intrinsic %llvm.x86.sse42.crc32.32.32

LLVM hit fatal error: Cannot select: intrinsic %llvm.x86.sse42.crc32.32.32 解决方案：set disable_codegen=true;

解决方案

LLVM

置顶原创 4月前 213 阅读

Jpyterhub注册新版本的Python3.8.8

1.上传下载好的python3.8.8包2.部署个人环境python3.81.解压 [yuxiang3.wang@cdhjupter1 ~]$ tar -xvf Python-3.8.8.tgz [yuxiang3.wang@cdhjupter1 ~]$ mv Python-3.8.8 python3.8.8 [yuxiang3.wang@cdhjupter1 ~]$ mkdir -p pytho

python

Python

上传下载

置顶原创 4月前 107 阅读私藏项目实操分享

Starrcoks的部署

Starrcoks的部署一、环境初始化1.1服务器配置1.2CPU指令集检查StarRocks 依靠 AVX2 指令集充分发挥其矢量化能力。因此，在生产环境中，强烈建议您将 StarRocks 部署于 x86 架构 CPU 的服务器上。您可以在终端中运行以下命令来检查 CPU 是否支持 AVX2 指令集：cat /proc/cpuinfo | grep avx21.3hosts添加主机名（每一台

java

IP

mysql

置顶原创 4月前 290 阅读

Starrcosk的优化

FE优化 fe.conf routine_load_task_consume_second = 60 max_routine_load_batch_size=6442450944 max_routine_load_task_num_per_be=24 BE优化 be.conf write_buffer_size=1073741824 base_compaction_check_interv

Nginx

高可用

nginx配置

置顶原创 5月前 41 阅读

dolph

1.服务器环境JDK：下载JDK (1.8+)，安装并配置 JAVA_HOME 环境变量；数据库：达梦数据库安装，并初始化数据库实例，特别注意数据库实例初始化过程中，必须要 “大小写不敏感”注册中心：ZooKeeper (3.8.0+)服务器用户：首先查看是否能使用root用户，如果能这一步跳过，否则执行一下命令# 创建用户需使用 root 登录 useradd dolphinscheduler

apache

bash

数据库

原创 5月前 11 阅读

Starrcks调整参数

核心参数调优参数名称原值/默认值建议值作用说明parallel_fragment_exec_instance_num18提升并行度（16核CPU建议设为8，每个核分配1个实例）pipeline_dop016流水线并行度（充分利用多核，提升CPU利用率）connector_io_tasks_per_scan_operator1632提高SSD的IO并行度（SSD高吞吐特性支持更高并发）io_task

并行度

默认值

高并发

置顶原创 5月前 182 阅读

hbase灾备集群数据量差异化告警

#!/bin/bash # 企业微信机器人Webhook地址 WEBHOOK_URL="https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=you_key" # 表名列表（支持多表检测） TABLES=("j:data1" "j:data2" "j:data3") # 时间范围计算优化（CST时区） YESTERDAY_START_CST

错误处理

apache

hadoop

置顶原创 5月前 63 阅读

Clickhouse迁移分区数据

一、清理当前集群的分区数据1. 验证分区存在性通过系统表确认分区状态：SELECTpartition,active,sum(rows) AS total_rowsFROM system.partsWHEREdatabase = 'clklog'AND table = 'flow_trend_bydate'AND partition = '2025-04-01'GROU

数据

目标集

删除操作

置顶原创 5月前 128 阅读

CDH6.3.2 HUE编译升级到CDH6.3.3HUE解决数据显示不全的BUG问题

centos7.9 [python2.7.5] #创建hue目录 mkdir hue cd hue/ #安装yum包 yum install -y python-devel sudo yum install -y git gcc make openssl-devel bzip2-devel libffi-devel yum install -y maven yum install -y mys

xml

python

mysql

置顶原创 5月前 223 阅读 1评论

CDH巡检脚本

#!/bin/bash # 设置Hadoop环境 unset YARN_OPTS export HADOOP_OPTS="-Djava.net.preferIPv4Stack=true" HADOOP_USER="hdfs" HADOOP_HOME="/opt/cloudera/parcels/CDH/lib/" OUTPUT_FILE="/var/lib/hadoop-hdfs/back/ou

hdfs

hadoop

版本信息

置顶原创 6月前 80 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

HDFS小文件数据采集到hive分析并治理

Doris 核心技术解析：FE/BE 架构、数据分片、表模型优化与资源隔离

Flink 运维全指南：监控、问题排查、优化与实战

Doris vs StarRocks vs ClickHouse：新一代MPP引擎的终极对决

大数据里的老大难：如何优雅解决数据倾斜？

数据仓库监控体系搭建：任务告警/资源调度的自动化方案

Hadoop高频面试题列表（HDFS/MapReduce/YARN）

面试官逼问Shuffle细节怎么办？这篇终极指南让你对答如流，倒背如流！

hive优化十大法则

大数据超时30分钟以上的任务告警脚本

大数据任务治理分析

impala报错的告警脚本

创建计划调整Yarn资源队列

CDH6.3.2 集成 tez0.9.1 修改执行引擎为Tez

大数据lDAP自动修改密码

Impala因为hive建表刷新元数据失败监控告警后修复

CDH6.3.2 升级 Spark3.3.0 版本

HDFS RPC延迟的解决办法

Yarn LevelDb文件过大导致重启NM失败问题分析

sftp数据拉到hdfs中表中

Impala查询超过10万行的报错LLVM hit fatal error: Cannot select: intrinsic %llvm.x86.sse42.crc32.32.32

Jpyterhub注册新版本的Python3.8.8

Starrcoks的部署

Starrcosk的优化

dolph

Starrcks调整参数

hbase灾备集群数据量差异化告警

Clickhouse迁移分区数据

CDH6.3.2 HUE编译升级到CDH6.3.3HUE解决数据显示不全的BUG问题

CDH巡检脚本

欢迎