一、创建HDFS的fsimage_info_csv表CREATE TABLE `fsimage_info_csv`( `path` string, `replication` int, `modificationtime` string, `accesstime` string, `preferredblocksize` bigint, `blocks
Doris 是一款 MPP 架构的 OLAP 引擎,核心目标是支持高并发、低延迟的数据分析查询,其架构设计、数据分片策略、表模型优化和资源隔离机制直接决定了查询性能与系统稳定性。以下从四个维度展开详细解析。一、Doris FE 与 BE 核心架构Doris 架构分为 前端节点(FE) 和 后端节点(BE),两者各司其职且通过心跳机制协同工作,整体架构具备高可
Flink 作为分布式流处理引擎,在实时数据处理领域扮演着核心角色。然而,其复杂的架构和动态特性给运维带来了巨大挑战。本文将系统性地介绍 Flink 的运维体系,深入剖析常见问题及其排查方法,并提供详细的解决方案和代码示例,帮助运维工程师和开发者构建稳定、高效的 Flink 集群。一、 Flink 运维基础:构建可观测性体系1. 核心监控指标与工具Flink 的可观测性是运维的基石,主要依赖以下组
随着大数据技术的飞速发展,企业对实时数据分析、高并发查询和复杂分析场景的需求日益增长。传统数据仓库在面对海量数据和高时效性要求时逐渐暴露出性能瓶颈。为此,基于MPP(Massively Parallel Processing,大规模并行处理)架构的新一代分析型数据库应运而生。其中,Apache Doris、StarRocks 和 ClickHouse 成为当前最受关注
在大数据计算领域,最让人头疼的问题之一就是 数据倾斜。它常常是导致任务跑得慢、集群资源被白白浪费、甚至直接失败的元凶。别看名字挺玄乎,其实本质并不复杂。1. 数据倾斜的本质原因一句话:数据分布不均导致计算资源不均。更具体点说:如果某些 Key 的数据量远远大于其他 Key,那就会导致部分计算节点的任务负担过重,结果就是——有的 Task 很快跑完,有的 Task 却累得要死要活,整个任务
一、引言数据仓库作为企业数据资产的核心存储和分析平台,其稳定性和可靠性直接影响业务决策的质量与时效。随着数据规模不断扩大和业务需求日益复杂,传统的人工监控方式已无法满足现代数据仓库的管理需求。本文将详细探讨如何构建一套完整的数据仓库监控体系,重点聚焦任务告警和资源调度的自动化方案,帮助数据团队实现高效、可靠的仓库运维管理。二、数据仓库监控体系概述2.1 监控体系的核心目标一个完善的数据仓库监控体系
一、HDFS 相关问请简述HDFS的架构及其核心组件。HDFS的块(Block)默认大小是多少?为什么设置这么大?HDFS的写入流程是怎样的?HDFS的读取流程是怎样的?NameNode和SecondaryNameNode有什么区别与联系?什么是“机架感知”(Rack Awareness)?它的策略是什么?HDFS如何保证数据的可靠性?二、MapReduce 相关问题请简述MapReduce的核心
在大数据面试中,尤其是涉及 Hadoop MapReduce、Spark 等分布式计算框架时,Shuffle 是一个绕不开的核心话题。许多面试官会层层追问 Shuffle 的底层实现、性能瓶颈、优化策略,甚至要求你手绘流程图或对比不同框架的 Shuffle 差异。如果你对 Shuffle 的理解停留在“数据从 Map 端传到 Reduce 端”这种模糊层面,那么在面试
在大数据处理领域,Apache Hive 作为构建在 Hadoop 之上的数据仓库工具,广泛应用于离线数据分析。然而,随着数据量不断增长,Hive 查询性能问题日益突出——许多原本几分钟的查询逐渐演变为数小时的“慢查询”,严重影响开发效率和业务响应速度。本文基于真实生产环境优化经验,总结出 Hive 优化十大法则,通过系统性调优手段,将一个原本耗时 2 小时的复杂 Hive 查询成功优化
from impala.dbapi import connect import requests import json import os # 配置参数 IMPALA_HOST = os.getenv('IMPALA_HOST', '192.168.0.1') IMPALA_PORT = int(os.getenv('IMPALA_PORT', 21050)) IMPALA_USER = os
1.写python脚本,把yarn任务上执行的记录导入到本地jsonimport requestsimport xmltodictimport jsonfrom datetime import datetime # 新增日期处理模块 # 获取当前日期并格式化为YYYYMMDDcurrent_date = datetime.no
import requests import json from datetime import datetime, timedelta import pytz import time import re from requests.auth import HTTPBasicAuth # 配置项 CDH_API_URL = "http://192.168.0.10:7180/api/v33/cl
1.创建计划模式配置集:pool_night 重复:每天 night: 晚上10:00~上午10:00 配置集:pool_day重复:每天 day: 上午10:00~晚上10:00 2.修改资源池1.default已经失去了作用2.调整白天的时间段的选择pool_day(每个用户就会变成500C+1000G的资源池)查看是否生效:pool_day已经生效3.调整晚上的T+1调度时间选择pool_
1.安装maven1.1 下载mavenhttps://maven.apache.org/download.cgi1.2上传解压tar -zxvf apache-maven-3.6.3-bin.tar.gz -C /opt1.3 配置 MVN_HOMR[root@cluster2-slave2 ~]# vim /etc/profileexport MVN_HOME=/data/module/ap
#!/bin/bash # OpenLDAP Password Reset Utility # Usage: # 管理员模式: ./ldap-pw-reset.sh -a <admin_dn> -u <user_dn> [-s <ldap_server>] # 用户模式: ./ldap-pw-reset.sh -u <user_dn> [-
1.添加服务cat /etc/systemd/system/catalogd-monitor.service [Unit] Description=CDH Catalogd Log Monitor [Service] ExecStart=/opt/scripts/catalogd_monitor.sh Restart=always RestartSec=5s [Install] WantedB
背景由于 CDH6.3.2 以上,已不开源。常用组件只能自编译升级,比如 Spark 。看网上的资料,有人说 Spark3 的 SQL 运行性能比 Spark2 可提升 20%,本人未验证,但是 Spark3 的 AE 功能的确很香,能自适应解决 Spark SQL 的数据倾斜。下载软件软件版本:jdk-1.8、maven-3.8.4、scala-2.12.15 、spark-3.3.0说明:ma
解决办法: 1.根据审计日志查出来的ip,通知相应的同学,停止对那个超大目录的count操作,用其他合理的方式代替 2.其它需要优化的 NameNode 配置(修改完成后,需要重启 NameNode 生效): a. 8021 端口的 handler 个数(dfs.namenode.servic
一、问题描述近期滚动重启Yarn NodeMagager时(hadoop版本3.0.0),发现滚动重启NM会卡很久,然后滚动重启失败(测试了好几台,基本都滚动重启失败)深入排查后,发现失败的原因如下:NM在启动的时候会去加载yarn-nm-recovery下面的leveldb数据库,主要是为了恢复机器上正在运行的container的相关信息。我们发现,重启失败的NM在启动的时候一直卡在读取leve
#!/usr/bin/env -S bash --posix # 文件名:sftp_to_hdfs.sh # 功能:多用户动态日期目录的SFTP数据拉取(自动删除.ok文件)并上传HDFS # 作者:王昱翔 # 版本:2.0(新增自动删除.ok文件功能) set +o posix # -------------------------------- 配置参数 ----------------
LLVM hit fatal error: Cannot select: intrinsic %llvm.x86.sse42.crc32.32.32 解决方案:set disable_codegen=true;
1.上传下载好的python3.8.8包2.部署个人环境python3.81.解压 [yuxiang3.wang@cdhjupter1 ~]$ tar -xvf Python-3.8.8.tgz [yuxiang3.wang@cdhjupter1 ~]$ mv Python-3.8.8 python3.8.8 [yuxiang3.wang@cdhjupter1 ~]$ mkdir -p pytho
Starrcoks的部署一、环境初始化1.1服务器配置1.2CPU指令集检查StarRocks 依靠 AVX2 指令集充分发挥其矢量化能力。因此,在生产环境中,强烈建议您将 StarRocks 部署于 x86 架构 CPU 的服务器上。您可以在终端中运行以下命令来检查 CPU 是否支持 AVX2 指令集:cat /proc/cpuinfo | grep avx21.3hosts添加主机名(每一台
FE优化 fe.conf routine_load_task_consume_second = 60 max_routine_load_batch_size=6442450944 max_routine_load_task_num_per_be=24 BE优化 be.conf write_buffer_size=1073741824 base_compaction_check_interv
1.服务器环境JDK:下载JDK (1.8+),安装并配置 JAVA_HOME 环境变量;数据库:达梦数据库安装,并初始化数据库实例,特别注意数据库实例初始化过程中,必须要 “大小写不敏感”注册中心:ZooKeeper (3.8.0+)服务器用户:首先查看是否能使用root用户,如果能这一步跳过,否则执行一下命令# 创建用户需使用 root 登录 useradd dolphinscheduler
核心参数调优参数名称原值/默认值建议值作用说明parallel_fragment_exec_instance_num18提升并行度(16核CPU建议设为8,每个核分配1个实例)pipeline_dop016流水线并行度(充分利用多核,提升CPU利用率)connector_io_tasks_per_scan_operator1632提高SSD的IO并行度(SSD高吞吐特性支持更高并发)io_task
#!/bin/bash # 企业微信机器人Webhook地址 WEBHOOK_URL="https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=you_key" # 表名列表(支持多表检测) TABLES=("j:data1" "j:data2" "j:data3") # 时间范围计算优化(CST时区) YESTERDAY_START_CST
一、清理当前集群的分区数据1. 验证分区存在性通过系统表确认分区状态:SELECTpartition,active,sum(rows) AS total_rowsFROM system.partsWHEREdatabase = 'clklog'AND table = 'flow_trend_bydate'AND partition = '2025-04-01'GROU
centos7.9 [python2.7.5] #创建hue目录 mkdir hue cd hue/ #安装yum包 yum install -y python-devel sudo yum install -y git gcc make openssl-devel bzip2-devel libffi-devel yum install -y maven yum install -y mys
#!/bin/bash # 设置Hadoop环境 unset YARN_OPTS export HADOOP_OPTS="-Djava.net.preferIPv4Stack=true" HADOOP_USER="hdfs" HADOOP_HOME="/opt/cloudera/parcels/CDH/lib/" OUTPUT_FILE="/var/lib/hadoop-hdfs/back/ou
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号