江南独孤客的博客_大数据篇,数据库篇,Linux_51CTO博客

鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册

大数据超时30分钟以上的任务告警脚本

from impala.dbapi import connect import requests import json import os # 配置参数 IMPALA_HOST = os.getenv('IMPALA_HOST', '192.168.0.1') IMPALA_PORT = int(os.getenv('IMPALA_PORT', 21050)) IMPALA_USER = os

json

unix

ci

置顶原创 1月前 39 阅读

Flink 运维全指南：监控、问题排查、优化与实战

Flink 作为分布式流处理引擎，在实时数据处理领域扮演着核心角色。然而，其复杂的架构和动态特性给运维带来了巨大挑战。本文将系统性地介绍 Flink 的运维体系，深入剖析常见问题及其排查方法，并提供详细的解决方案和代码示例，帮助运维工程师和开发者构建稳定、高效的 Flink 集群。一、 Flink 运维基础：构建可观测性体系1. 核心监控指标与工具Flink 的可观测性是运维的基石，主要依赖以下组

UI

Web

搜索

原创 1月前 152 阅读 1点赞 1收藏

Doris vs StarRocks vs ClickHouse：新一代MPP引擎的终极对决

随着大数据技术的飞速发展，企业对实时数据分析、高并发查询和复杂分析场景的需求日益增长。传统数据仓库在面对海量数据和高时效性要求时逐渐暴露出性能瓶颈。为此，基于MPP（Massively Parallel Processing，大规模并行处理）架构的新一代分析型数据库应运而生。其中，Apache Doris、StarRocks 和 ClickHouse 成为当前最受关注

向量化

高并发

Apache

原创 1月前 430 阅读

大数据里的老大难：如何优雅解决数据倾斜？

在大数据计算领域，最让人头疼的问题之一就是数据倾斜。它常常是导致任务跑得慢、集群资源被白白浪费、甚至直接失败的元凶。别看名字挺玄乎，其实本质并不复杂。1. 数据倾斜的本质原因一句话：数据分布不均导致计算资源不均。更具体点说：如果某些 Key 的数据量远远大于其他 Key，那就会导致部分计算节点的任务负担过重，结果就是——有的 Task 很快跑完，有的 Task 却累得要死要活，整个任务

数据倾斜

随机数

字段

原创 1月前 119 阅读

数据仓库监控体系搭建：任务告警/资源调度的自动化方案

一、引言数据仓库作为企业数据资产的核心存储和分析平台，其稳定性和可靠性直接影响业务决策的质量与时效。随着数据规模不断扩大和业务需求日益复杂，传统的人工监控方式已无法满足现代数据仓库的管理需求。本文将详细探讨如何构建一套完整的数据仓库监控体系，重点聚焦任务告警和资源调度的自动化方案，帮助数据团队实现高效、可靠的仓库运维管理。二、数据仓库监控体系概述2.1 监控体系的核心目标一个完善的数据仓库监控体系

数据

ci

数据仓库

原创 1月前 86 阅读

Hadoop高频面试题列表（HDFS/MapReduce/YARN）

一、HDFS 相关问请简述HDFS的架构及其核心组件。HDFS的块（Block）默认大小是多少？为什么设置这么大？HDFS的写入流程是怎样的？HDFS的读取流程是怎样的？NameNode和SecondaryNameNode有什么区别与联系？什么是“机架感知”（Rack Awareness）？它的策略是什么？HDFS如何保证数据的可靠性？二、MapReduce 相关问题请简述MapReduce的核心

数据

Hadoop

HDFS

原创 1月前 64 阅读

面试官逼问Shuffle细节怎么办？这篇终极指南让你对答如流，倒背如流！

在大数据面试中，尤其是涉及 Hadoop MapReduce、Spark 等分布式计算框架时，Shuffle 是一个绕不开的核心话题。许多面试官会层层追问 Shuffle 的底层实现、性能瓶颈、优化策略，甚至要求你手绘流程图或对比不同框架的 Shuffle 差异。如果你对 Shuffle 的理解停留在“数据从 Map 端传到 Reduce 端”这种模糊层面，那么在面试

数据

网络传输

数据倾斜

原创 1月前 96 阅读

hive优化十大法则

在大数据处理领域，Apache Hive 作为构建在 Hadoop 之上的数据仓库工具，广泛应用于离线数据分析。然而，随着数据量不断增长，Hive 查询性能问题日益突出——许多原本几分钟的查询逐渐演变为数小时的“慢查询”，严重影响开发效率和业务响应速度。本文基于真实生产环境优化经验，总结出 Hive 优化十大法则，通过系统性调优手段，将一个原本耗时 2 小时的复杂 Hive 查询成功优化

hive

Hive

数据

原创 1月前 115 阅读

欢迎