在大数据面试中,尤其是涉及 Hadoop MapReduce、Spark 等分布式计算框架时,Shuffle 是一个绕不开的核心话题。许多面试官会层层追问 Shuffle 的底层实现、性能瓶颈、优化策略,甚至要求你手绘流程图或对比不同框架的 Shuffle 差异。如果你对 Shuffle 的理解停留在“数据从 Map 端传到 Reduce 端”这种模糊层面,那么在面试
在大数据处理领域,Apache Hive 作为构建在 Hadoop 之上的数据仓库工具,广泛应用于离线数据分析。然而,随着数据量不断增长,Hive 查询性能问题日益突出——许多原本几分钟的查询逐渐演变为数小时的“慢查询”,严重影响开发效率和业务响应速度。本文基于真实生产环境优化经验,总结出 Hive 优化十大法则,通过系统性调优手段,将一个原本耗时 2 小时的复杂 Hive 查询成功优化
1.服务器环境JDK:下载JDK (1.8+),安装并配置 JAVA_HOME 环境变量;数据库:达梦数据库安装,并初始化数据库实例,特别注意数据库实例初始化过程中,必须要 “大小写不敏感”注册中心:ZooKeeper (3.8.0+)服务器用户:首先查看是否能使用root用户,如果能这一步跳过,否则执行一下命令# 创建用户需使用 root 登录 useradd dolphinscheduler
总数据量:2PB=2000TB 35台datanode(26台+9台扩容) 2000/35=58TB(平均到每台datanode) 26台近70TB的数据量(迁移前26台的数据总量) 26*70=1820TB 均衡后的26台的平均数据量 26*58=1508(26台均衡后的总量) 26台的数据差量: 1820TB-1508TB=312TB 每天移动8TB,共多少天能完成 312/8TB=3
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号