文章目录单选多选题判断题部分知识点来源 预判老师的预判,考试了,复习用单选目前,Hadoop的最高版本是哪个? A、Hadoop3.xB、Hadoop2.xC、Hadoop4.xD、Hadoop1.x正确答案: A大数据的4V特征是指? A、 数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、技术发展速度快(Velocity) B、 数据量大(Volume)、类型繁
转载
2023-09-13 23:15:17
421阅读
目录36.HDFS文件能否直接删除或则修改?37.谈谈hdfs中的block、package、chunk?38.HDFS能否多线程写?39.读写过程,数据完整性如何保持?40.文件授权期限分为几个等级?41.谈谈hdfs中的Checksum?42.谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?43、什么样的计算不能用mr来提速?44.hadoop主要的端口有哪些?45.请简述Ha
转载
2023-07-12 11:21:25
70阅读
1.简要的描述一下如何安装一个apache开原版的hadoop,无需列出完整步骤。 1.创建hadoop用户. 2.setup修改IP. 3.安装javaJdk,并且修改etc/profile文件,配置java的环境变量. 4.修改host的文件域名 5.安装SSH免密码通信。 6.解压hadoop包. 7配置conf文件下的hadoop-env.sh.core-site.sh
转载
2023-08-18 20:44:13
56阅读
1、 HDFS 中的 block 默认保存几份?默认保存3份2、HDFS 默认 BlockSize 是多大?默认64MB3、负责HDFS数据存储的是哪一部分?DataNode负责数据存储4、SecondaryNameNode的目的是什么?他的目的使帮助NameNode合并编辑日志,减少NameNode 启动时间5、文件大小设置,增大有什么影响?HDFS中的文件在物理上是分块存储(block),块的
转载
2023-09-22 13:20:37
82阅读
HadoopHadoop 中常问的就三块,第一:分布式存储(HDFS);第二:分布式计算框架(MapReduce);第三:资源调度框架(YARN)。1. 请说下 HDFS 读写流程 img
HDFS 写流程:1.客户端发送上传请求,并通过RPC与NameNode建立通信。NameNode检查用户是否有上传权限,上传的文件在HDFS对应的目录下是否同名。如果其中任何一个不满足,就会直接报
转载
2024-01-09 21:54:27
114阅读
java面试总结java基本数据类型:字节型 byte 8位; 短整型 short 16位; 整型 int 32位; 长整型long 64位; 单精度float 32位;双精度 double 64位; 字符型char 8位; 布尔型 boolean。String 不是基本数据类型, String类是final不可以继承。java修饰符:访问权限修饰符:HTML...
原创
2022-12-19 13:53:29
41阅读
一:三个面试题面试题一:有一个非常大的文件,一台机器处理不了,存储的是ip每行一个,统计一下出现次数最多的那个ip。如果是小文件1)创建io流对这个文件进行读取,将读取的内容放在map集合中(ip,次数)2)循环遍历map集合,取出value最大的值大文件情况map集合,list集合,数组,set集合——-都是在内存进行操作的,文件过大会造成内存溢出,根本无法处理。一台机器原始性能有限,根据摩尔定
转载
2024-05-30 09:22:31
137阅读
1、什么是Redis?Redis是完全开源免费的,遵守BSD协议,是一个高性能的key-value数据库。Redis与其他key-value缓存产品有以下三个特点:Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据,同时还提供list,set,zset,hash等数据结构的存储。Redis支持数据的备份
原创
2019-02-23 11:42:33
878阅读
待续: Hadoop shuffle流程 Hive调优 kafka 数据重复和数据乱序:幂等性 flume调优 监控hadoop 0.什么是hadoo Hadoop是一个分布式系统基础架构,解决数据存储和数据分析计算的问题1.hadoop三大框架及作用
1.HDFS:数据的存储
2.Mapreduce:数据的计算
3.YARN :给计算框架分配资源
2.HDFS读流程
转载
2023-10-08 23:45:04
136阅读
hadoop 2022 面试题总结了目录概述需求:设计思路相关代码如下:实验效果:分析:小结:目录概述hadoop 学习资料需求:设计思路相关代码如下:实验效果:待完成分析:16、FileInputFormat切片机制
job提交流程源码详解
waitForCompletion()
submit();
//建立连接:
Connect();//创建提交job的代理
///判断是本
前言结合南国 不到一年时间 学习大数据的知识梳理,加上2019年春天找实习的经历,在这里南国写博客的同时会参考一些资料 写出大数据内一些高频的面试知识点。1.Hadoop基础1.1 通常是集群的最主要瓶颈:磁盘IOcpu 和内存在大数据集群中都是可以扩充的,磁盘不行。1.2 Yarn,ClouderaManager可以作为集群的管理,zookeeper不可以。Zookeeper:是一个开源的分布式
转载
2023-09-04 14:50:19
20阅读
1、当前大数据技术的基础是由( C)首先提出的。(单选题,本题2分)A:微软B:百度C:谷歌D:阿里巴巴 2、大数据的起源是(C)。(单选题,本题2分)A:金融B:电信C:互联网D:公共管理 3、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是(C)。(单选题,本题2分)A:数据管理人员B:数据分析员C:研究科学家D:软件开发工程师 4、(D)反映
原创
2021-05-20 14:30:44
1027阅读
1.0简要描述如何安装配置apache的一个开源hadoop,只描述即可,无需列出具体步骤,列出具体步骤更好。答:第一题:1使用root账户登录2 修改IP3 修改host主机名4 配置SSH免密码登录5 关闭防火墙6 安装JDK6 解压hadoop安装包7 配置hadoop的核心文件 hadoop-env.sh,core-site.xml , mapred...
转载
2021-08-30 11:26:26
1349阅读
点赞
文章目录1、集群的最主要瓶颈2、Hadoop运行模式3、Hadoop生态圈的组件并做简要描述4、解释“hadoop”和“hadoop 生态系统”两个概念5、请列出正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程,它们的作用分别是什么?6、基于 Hadoop 生态系统对比传统数据仓库有何优势?7、如何选择不同的文件格式存储和处理数据CSV 文件JSON 文件Avro 文件Column
转载
2023-07-13 16:44:15
266阅读
1、请讲述HDFS输入文件的具体步骤?1、Client向NameNode 提交需要上传文件的申请2、NameNode返回响应给Client,同意上传文件的请求3、Client向NameNode 申请子节点DataNode.4、NameNode 响应给Client它的子节点DataNode5、Client 向DataNode提交申请建立传输通道。6、DataNode 依次响应连接 (dn1,dn2,
转载
2023-08-08 02:15:29
87阅读
目录1.描述一下hdfs的写流程 读流程?2.详细讲解一下hdfs的体系结构3.如果一个datanode出现宕机,恢复流程是什么样的?4.通常你是如何解决Haddop的NameNode宕机的,流程是什么?5.描述一下NameNode的元数据的管理 6.Hadoop集群中有哪些进程?他们各自有什么作用?7.讲解一下Hadoop中combiner和partition的作用8.你在MapRed
转载
2023-12-20 20:41:58
119阅读
1、简要描述如何安装配置一个apache开源版hadoop,描述即可,列出步骤更好 --解压hadoop包,到指定安装文件夹 --配置linux基本网络环境、jdk环境、防火墙环境  
转载
2024-01-09 22:35:00
182阅读
Hadoophadoop中常问的就三块,第一:分布式存储(HDFS);第二:分布式计算框架(MapReduce);第三:资源调度框架(YARN)。1. 请说下HDFS读写流程这个问题虽然见过无数次,面试官问过无数次,还是有不少面试者不能完整的说出来,所以请务必记住。并且很多问题都是从HDFS读写流程中引申出来的。HDFS写流程:Client客户端发送上传请求,通过RPC与NameNode建立通信,
转载
2023-09-08 12:45:13
94阅读
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”。 大数据面试宝典目录,请点击HADOOP 面试题目录1. 下列哪项通常是集群的最主要瓶颈2. 下列哪项可以作为集群的管理工具?3. 下列哪个是Hadoop 运行的模式?4. 列举几个hadoop 生态圈的组件并
原创
2022-12-28 15:19:40
234阅读
1. kafka分区数如何设置?默认情况下 1 指定分区,按你指定的分区 2 未指定分区,但是指定了key,依据key的hashCode计算分区 3 未指定分区,且没有指定key,依据轮询算法计算分区2. kafka中消息传输一致中的最多一次、最少一次、恰好一次,是如何实现的?恰好一次:acks=-1 ,幂等机制 最多一次:acks=0 最少一次:acks=-1 or acks=13. Spark
转载
2024-02-17 09:35:04
93阅读