一、Linux
常用的5个高级命令:查看端口号netstat、查看进程ps、查看磁盘使用情况iotop
二、shell
1、shell的工具:awk、sed、sort、cut
2、写过哪些脚本?
群起脚本、数仓与MySQL的数据导入导出、数仓不同层级之间的导入
三、Hadoop
1、入门
(1)常见端口号:HDFS50070、历史19888
(2)安装配置文件8个,site、sh(core-site.xml、slave)
(3)不同版本(1.x和2.x的区别):yarn、高可用HA
2、HDFS
(1)读写数据流程,client-请求-nn-元数据-dn
(2)小文件问题
(3)默认有多少副本
(4)块大小有多大
3、MapReduce
(1)Shuffle及其优化、压缩
(2)流程
4、Yarn
(1)Yarn的工作机制
(2)Yarn的调度器
四、Zookeeper
1、选举机制
2、常用命令
3、工作经验-安装多少台
五、Flume三件事
1、Flume的组成
(1)source-taildir source【不问问题说答案】
为什么选它
哪个版本产生的
没产生之前是怎么实现的断点续传
挂掉之后会产生什么现象
数据重复怎么办
是否支持递归遍历文件夹
(2)channel
有几种channel
各种channel的优缺点
什么场景下使用
(3)hdfs sink
存在什么问题
怎么解决(时间、大小、event个数)
(4)事务
put
take
2、三个器
(1)拦截器
ETL做什么事,为什么这么做
分类型拦截器做什么事,分几类,为什么这么分
自定义拦截器的步骤
是否可以取消(涉及好处和坏处)
(2)选择器
有几种选择器
项目中用哪种
(3)监控器
使用监控器监控什么
出现性能问题怎么办(调内存)
3、优化
(1)file channel多目录
(2)hdfs小文件
(3)监视器
(4)flume挂了怎么办
六、kafka-24件事
1、基本信息/常规问题-架构
(1)组成:p b c zk(无生产者信息)
(2)安装多少台(2n+1=3),n是生产者峰值生产速率*副本/100
(3)速率:压力测试
(4)副本数量2-3、好处坏处
(5)保存多久
(6)数据量计算?100万日活 1K+条/s 1M/S
(7)分区数=总吞吐量/min(tp,tc)=3-10
(8)分区分配策略
(9)ISR队列
(10)有多少topic
(11)是否做监控器
2、挂了
3、丢失数据
ack
4、重复数据
幂等性
事务
ack=-1
5、数据积压
自身:分区数
朋友:批次拉取大小
6、优化
server.properties:线程数、刷写时间、副本、保存时间
producer:配置压缩
start.sh:内存调整,默认1G,调整到4-6G
7、其他
为什么读写效率比较高(分布式、分区、随机读写、零拷贝技术)
删除策略:直接or压缩
传输大小:默认1M,超过会卡死
作者:哥们要飞