江南独孤客的博客_大数据篇,数据库篇,Linux(2)_51CTO博客

鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册

面试官逼问Shuffle细节怎么办？这篇终极指南让你对答如流，倒背如流！

在大数据面试中，尤其是涉及 Hadoop MapReduce、Spark 等分布式计算框架时，Shuffle 是一个绕不开的核心话题。许多面试官会层层追问 Shuffle 的底层实现、性能瓶颈、优化策略，甚至要求你手绘流程图或对比不同框架的 Shuffle 差异。如果你对 Shuffle 的理解停留在“数据从 Map 端传到 Reduce 端”这种模糊层面，那么在面试

数据

网络传输

数据倾斜

原创 1月前 95 阅读

hive优化十大法则

在大数据处理领域，Apache Hive 作为构建在 Hadoop 之上的数据仓库工具，广泛应用于离线数据分析。然而，随着数据量不断增长，Hive 查询性能问题日益突出——许多原本几分钟的查询逐渐演变为数小时的“慢查询”，严重影响开发效率和业务响应速度。本文基于真实生产环境优化经验，总结出 Hive 优化十大法则，通过系统性调优手段，将一个原本耗时 2 小时的复杂 Hive 查询成功优化

hive

Hive

数据

原创 1月前 115 阅读

dolph

1.服务器环境JDK：下载JDK (1.8+)，安装并配置 JAVA_HOME 环境变量；数据库：达梦数据库安装，并初始化数据库实例，特别注意数据库实例初始化过程中，必须要 “大小写不敏感”注册中心：ZooKeeper (3.8.0+)服务器用户：首先查看是否能使用root用户，如果能这一步跳过，否则执行一下命令# 创建用户需使用 root 登录 useradd dolphinscheduler

apache

bash

数据库

原创 5月前 11 阅读

协助朋友推算数据均衡量

总数据量：2PB=2000TB 35台datanode(26台+9台扩容) 2000/35=58TB(平均到每台datanode) 26台近70TB的数据量(迁移前26台的数据总量) 26*70=1820TB 均衡后的26台的平均数据量 26*58=1508(26台均衡后的总量) 26台的数据差量： 1820TB-1508TB=312TB 每天移动8TB，共多少天能完成 312/8TB=3

数据

原创 6月前 57 阅读

欢迎

首页
1
2
共34条记录