【大数据面试】回顾

关注哥们要飞

【大数据面试】回顾

原创

哥们要飞 2022-05-27 18:00:26 ©著作权

文章标签 hdfs 数据端口号 文章分类 大数据

©著作权归作者所有：来自51CTO博客作者哥们要飞的原创作品，请联系作者获取转载授权，否则将追究法律责任

一、Linux

常用的5个高级命令：查看端口号netstat、查看进程ps、查看磁盘使用情况iotop

二、shell

1、shell的工具：awk、sed、sort、cut

2、写过哪些脚本？

群起脚本、数仓与MySQL的数据导入导出、数仓不同层级之间的导入

三、Hadoop

1、入门

（1）常见端口号：HDFS50070、历史19888

（2）安装配置文件8个，site、sh（core-site.xml、slave）

（3）不同版本（1.x和2.x的区别）：yarn、高可用HA

2、HDFS

（1）读写数据流程，client-请求-nn-元数据-dn

（2）小文件问题

（3）默认有多少副本

（4）块大小有多大

3、MapReduce

（1）Shuffle及其优化、压缩

（2）流程

4、Yarn

（1）Yarn的工作机制

（2）Yarn的调度器

四、Zookeeper

1、选举机制

2、常用命令

3、工作经验-安装多少台

五、Flume三件事

1、Flume的组成

（1）source-taildir source【不问问题说答案】

为什么选它

哪个版本产生的

没产生之前是怎么实现的断点续传

挂掉之后会产生什么现象

数据重复怎么办

是否支持递归遍历文件夹

（2）channel

有几种channel

各种channel的优缺点

什么场景下使用

（3）hdfs sink

存在什么问题

怎么解决（时间、大小、event个数）

（4）事务

put

take

2、三个器

（1）拦截器

ETL做什么事，为什么这么做

分类型拦截器做什么事，分几类，为什么这么分

自定义拦截器的步骤

是否可以取消（涉及好处和坏处）

（2）选择器

有几种选择器

项目中用哪种

（3）监控器

使用监控器监控什么

出现性能问题怎么办（调内存）

3、优化

（1）file channel多目录

（2）hdfs小文件

（3）监视器

（4）flume挂了怎么办

六、kafka-24件事

1、基本信息/常规问题-架构

（1）组成：p b c zk（无生产者信息）

（2）安装多少台（2n+1=3），n是生产者峰值生产速率*副本/100

（3）速率：压力测试

（4）副本数量2-3、好处坏处

（5）保存多久

（6）数据量计算？100万日活 1K+条/s 1M/S

（7）分区数=总吞吐量/min(tp,tc)=3-10

（8）分区分配策略

（9）ISR队列

（10）有多少topic

（11）是否做监控器

2、挂了

3、丢失数据

ack

4、重复数据

幂等性

事务

ack=-1

5、数据积压

自身：分区数

朋友：批次拉取大小

6、优化

server.properties：线程数、刷写时间、副本、保存时间

producer：配置压缩

start.sh：内存调整，默认1G，调整到4-6G

7、其他

为什么读写效率比较高（分布式、分区、随机读写、零拷贝技术）

删除策略：直接or压缩

传输大小：默认1M，超过会卡死

作者：哥们要飞

赞
收藏
评论
分享
举报

上一篇：【大数据面试】【项目】数仓架构：离线、实时、数仓输入输出、选型、版本、服务器、集群规模、数据保存、组件安装分配

下一篇：【大数据面试】【数仓项目】分层：ODS层、DWD层、DWS层、ADS层构成、操作

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册