江南独孤客的最近发布

JupyterHub 离线部署（适配 K8s v1.28.0）

三、JupyterHub 离线部署（适配 K8s v1.28.0）1. 下载适配版本的 Helm Chart 与离线镜像1.1 下载 JupyterHub Helm Chart v3.1.0（替换原 2.0.0）参考文档通过百度网盘分享 Chart 包，此处替换为 3.1.0 版本：bash# 方式1：离线包上传（推荐，复刻参考文档离线逻辑） # 联网环境下载：https://artifacthu

参考文档

docker

ci

原创 1月前 161 阅读

HDFS小文件数据采集到hive分析并治理

一、创建HDFS的fsimage_info_csv表CREATE TABLE `fsimage_info_csv`( `path` string, `replication` int, `modificationtime` string, `accesstime` string, `preferredblocksize` bigint, `blocks

HDFS

hdfs

CSV

置顶原创 1月前 127 阅读 1点赞

Doris 核心技术解析：FE/BE 架构、数据分片、表模型优化与资源隔离

Doris 是一款 MPP 架构的 OLAP 引擎，核心目标是支持高并发、低延迟的数据分析查询，其架构设计、数据分片策略、表模型优化和资源隔离机制直接决定了查询性能与系统稳定性。以下从四个维度展开详细解析。一、Doris FE 与 BE 核心架构Doris 架构分为前端节点（FE）和后端节点（BE），两者各司其职且通过心跳机制协同工作，整体架构具备高可

字段

数据

元数据

原创 1月前 372 阅读

Flink 运维全指南：监控、问题排查、优化与实战

Flink 作为分布式流处理引擎，在实时数据处理领域扮演着核心角色。然而，其复杂的架构和动态特性给运维带来了巨大挑战。本文将系统性地介绍 Flink 的运维体系，深入剖析常见问题及其排查方法，并提供详细的解决方案和代码示例，帮助运维工程师和开发者构建稳定、高效的 Flink 集群。一、 Flink 运维基础：构建可观测性体系1. 核心监控指标与工具Flink 的可观测性是运维的基石，主要依赖以下组

UI

Web

搜索

原创 1月前 147 阅读 1点赞 1收藏

Doris vs StarRocks vs ClickHouse：新一代MPP引擎的终极对决

随着大数据技术的飞速发展，企业对实时数据分析、高并发查询和复杂分析场景的需求日益增长。传统数据仓库在面对海量数据和高时效性要求时逐渐暴露出性能瓶颈。为此，基于MPP（Massively Parallel Processing，大规模并行处理）架构的新一代分析型数据库应运而生。其中，Apache Doris、StarRocks 和 ClickHouse 成为当前最受关注

向量化

高并发

Apache

原创 1月前 403 阅读

大数据里的老大难：如何优雅解决数据倾斜？

在大数据计算领域，最让人头疼的问题之一就是数据倾斜。它常常是导致任务跑得慢、集群资源被白白浪费、甚至直接失败的元凶。别看名字挺玄乎，其实本质并不复杂。1. 数据倾斜的本质原因一句话：数据分布不均导致计算资源不均。更具体点说：如果某些 Key 的数据量远远大于其他 Key，那就会导致部分计算节点的任务负担过重，结果就是——有的 Task 很快跑完，有的 Task 却累得要死要活，整个任务

数据倾斜

随机数

字段

原创 1月前 115 阅读

数据仓库监控体系搭建：任务告警/资源调度的自动化方案

一、引言数据仓库作为企业数据资产的核心存储和分析平台，其稳定性和可靠性直接影响业务决策的质量与时效。随着数据规模不断扩大和业务需求日益复杂，传统的人工监控方式已无法满足现代数据仓库的管理需求。本文将详细探讨如何构建一套完整的数据仓库监控体系，重点聚焦任务告警和资源调度的自动化方案，帮助数据团队实现高效、可靠的仓库运维管理。二、数据仓库监控体系概述2.1 监控体系的核心目标一个完善的数据仓库监控体系

数据

ci

数据仓库

原创 1月前 86 阅读

Hadoop高频面试题列表（HDFS/MapReduce/YARN）

数据

Hadoop

HDFS

原创 1月前 59 阅读

面试官逼问Shuffle细节怎么办？这篇终极指南让你对答如流，倒背如流！

在大数据面试中，尤其是涉及 Hadoop MapReduce、Spark 等分布式计算框架时，Shuffle 是一个绕不开的核心话题。许多面试官会层层追问 Shuffle 的底层实现、性能瓶颈、优化策略，甚至要求你手绘流程图或对比不同框架的 Shuffle 差异。如果你对 Shuffle 的理解停留在“数据从 Map 端传到 Reduce 端”这种模糊层面，那么在面试

数据

网络传输

数据倾斜

原创 1月前 97 阅读

hive优化十大法则

在大数据处理领域，Apache Hive 作为构建在 Hadoop 之上的数据仓库工具，广泛应用于离线数据分析。然而，随着数据量不断增长，Hive 查询性能问题日益突出——许多原本几分钟的查询逐渐演变为数小时的“慢查询”，严重影响开发效率和业务响应速度。本文基于真实生产环境优化经验，总结出 Hive 优化十大法则，通过系统性调优手段，将一个原本耗时 2 小时的复杂 Hive 查询成功优化

hive

Hive

数据

原创 1月前 115 阅读

大数据超时30分钟以上的任务告警脚本

from impala.dbapi import connect import requests import json import os # 配置参数 IMPALA_HOST = os.getenv('IMPALA_HOST', '192.168.0.1') IMPALA_PORT = int(os.getenv('IMPALA_PORT', 21050)) IMPALA_USER = os

json

unix

ci

置顶原创 1月前 39 阅读

大数据任务治理分析

1.写python脚本，把yarn任务上执行的记录导入到本地jsonimport requestsimport xmltodictimport jsonfrom datetime import datetime # 新增日期处理模块 # 获取当前日期并格式化为YYYYMMDDcurrent_date = datetime.no

unix

json

xml

置顶原创 2月前 142 阅读

impala报错的告警脚本

import requests import json from datetime import datetime, timedelta import pytz import time import re from requests.auth import HTTPBasicAuth # 配置项 CDH_API_URL = "http://192.168.0.10:7180/api/v33/cl

json

API

错误类型

置顶原创 2月前 89 阅读

创建计划调整Yarn资源队列

1.创建计划模式配置集：pool_night 重复:每天 night: 晚上10:00~上午10:00 配置集：pool_day重复:每天 day: 上午10:00~晚上10:00 2.修改资源池1.default已经失去了作用2.调整白天的时间段的选择pool_day(每个用户就会变成500C+1000G的资源池)查看是否生效：pool_day已经生效3.调整晚上的T+1调度时间选择pool_

时间段

置顶原创 3月前 106 阅读

CDH6.3.2 集成 tez0.9.1 修改执行引擎为Tez

1.安装maven1.1 下载mavenhttps://maven.apache.org/download.cgi1.2上传解压tar -zxvf apache-maven-3.6.3-bin.tar.gz -C /opt1.3 配置 MVN_HOMR[root@cluster2-slave2 ~]# vim /etc/profileexport MVN_HOME=/data/module/ap

maven

apache

xml

置顶原创 3月前 139 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

JupyterHub 离线部署（适配 K8s v1.28.0）

HDFS小文件数据采集到hive分析并治理

Doris 核心技术解析：FE/BE 架构、数据分片、表模型优化与资源隔离

Flink 运维全指南：监控、问题排查、优化与实战

Doris vs StarRocks vs ClickHouse：新一代MPP引擎的终极对决

大数据里的老大难：如何优雅解决数据倾斜？

数据仓库监控体系搭建：任务告警/资源调度的自动化方案

Hadoop高频面试题列表（HDFS/MapReduce/YARN）

面试官逼问Shuffle细节怎么办？这篇终极指南让你对答如流，倒背如流！

hive优化十大法则

大数据超时30分钟以上的任务告警脚本

大数据任务治理分析

impala报错的告警脚本

创建计划调整Yarn资源队列

CDH6.3.2 集成 tez0.9.1 修改执行引擎为Tez

欢迎