HadoopHadoop 中常问的就三块,第一:分布式存储(HDFS);第二:分布式计算框架(MapReduce);第三:资源调度框架(YARN)。1. 请说下 HDFS 读写流程 img HDFS 写流程:1.客户端发送上传请求,并通过RPC与NameNode建立通信。NameNode检查用户是否有上传权限,上传的文件在HDFS对应的目录下是否同名。如果其中任何一个不满足,就会直接报
  1.简要的描述一下如何安装一个apache开原版的hadoop,无需列出完整步骤。  1.创建hadoop用户.  2.setup修改IP.  3.安装javaJdk,并且修改etc/profile文件,配置java的环境变量.  4.修改host的文件域名  5.安装SSH免密码通信。  6.解压hadoop包.  7配置conf文件下的hadoop-env.sh.core-site.sh
转载 2023-08-18 20:44:13
48阅读
1、 HDFS 中的 block 默认保存几份?默认保存3份2、HDFS 默认 BlockSize 是多大?默认64MB3、负责HDFS数据存储的是哪一部分?DataNode负责数据存储4、SecondaryNameNode的目的是什么?他的目的使帮助NameNode合并编辑日志,减少NameNode 启动时间5、文件大小设置,增大有什么影响?HDFS中的文件在物理上是分块存储(block),块的
目录36.HDFS文件能否直接删除或则修改?37.谈谈hdfs中的block、package、chunk?38.HDFS能否多线程写?39.读写过程,数据完整性如何保持?40.文件授权期限分为几个等级?41.谈谈hdfs中的Checksum?42.谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?43、什么样的计算不能用mr来提速?44.hadoop主要的端口有哪些?45.请简述Ha
转载 2023-07-12 11:21:25
50阅读
前言结合南国 不到一年时间 学习大数据的知识梳理,加上2019年春天找实习的经历,在这里南国写博客的同时会参考一些资料 写出大数据内一些高频的面试知识点。1.Hadoop基础1.1 通常是集群的最主要瓶颈:磁盘IOcpu 和内存在大数据集群中都是可以扩充的,磁盘不行。1.2 Yarn,ClouderaManager可以作为集群的管理,zookeeper不可以。Zookeeper:是一个开源的分布式
转载 2023-09-04 14:50:19
0阅读
待续: Hadoop shuffle流程 Hive调优 kafka 数据重复和数据乱序:幂等性 flume调优 监控hadoop 0.什么是hadoo Hadoop是一个分布式系统基础架构,解决数据存储和数据分析计算的问题1.hadoop三大框架及作用 1.HDFS:数据的存储 2.Mapreduce:数据的计算 3.YARN :给计算框架分配资源 2.HDFS读流程
转载 2023-10-08 23:45:04
110阅读
一:三个面试题面试题一:有一个非常大的文件,一台机器处理不了,存储的是ip每行一个,统计一下出现次数最多的那个ip。如果是小文件1)创建io流对这个文件进行读取,将读取的内容放在map集合中(ip,次数)2)循环遍历map集合,取出value最大的值大文件情况map集合,list集合,数组,set集合——-都是在内存进行操作的,文件过大会造成内存溢出,根本无法处理。一台机器原始性能有限,根据摩尔定
1.0简要描述如何安装配置apache的一个开源hadoop,只描述即可,无需列出具体步骤,列出具体步骤更好。答:第一题:1使用root账户登录2 修改IP3 修改host主机名4 配置SSH免密码登录5 关闭防火墙6 安装JDK6 解压hadoop安装包7 配置hadoop的核心文件 hadoop-env.sh,core-site.xml , mapred...
转载 2021-08-30 11:26:26
1280阅读
1点赞
    1、当前大数据技术的基础是由( C)首先提出的。(单选题,本题2分)A:微软B:百度C:谷歌D:阿里巴巴 2、大数据的起源是(C)。(单选题,本题2分)A:金融B:电信C:互联网D:公共管理 3、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是(C)。(单选题,本题2分)A:数据管理人员B:数据分析员C:研究科学家D:软件开发工程师 4、(D)反映
原创 2021-05-20 14:30:44
832阅读
文章目录1、集群的最主要瓶颈2、Hadoop运行模式3、Hadoop生态圈的组件并做简要描述4、解释“hadoop”和“hadoop 生态系统”两个概念5、请列出正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程,它们的作用分别是什么?6、基于 Hadoop 生态系统对比传统数据仓库有何优势?7、如何选择不同的文件格式存储和处理数据CSV 文件JSON 文件Avro 文件Column
转载 2023-07-13 16:44:15
187阅读
1、请讲述HDFS输入文件的具体步骤?1、Client向NameNode 提交需要上传文件的申请2、NameNode返回响应给Client,同意上传文件的请求3、Client向NameNode 申请子节点DataNode.4、NameNode 响应给Client它的子节点DataNode5、Client 向DataNode提交申请建立传输通道。6、DataNode 依次响应连接 (dn1,dn2,
转载 2023-08-08 02:15:29
66阅读
目录1.描述一下hdfs的写流程 读流程?2.详细讲解一下hdfs的体系结构3.如果一个datanode出现宕机,恢复流程是什么样的?4.通常你是如何解决Haddop的NameNode宕机的,流程是什么?5.描述一下NameNode的元数据的管理 6.Hadoop集群中有哪些进程?他们各自有什么作用?7.讲解一下Hadoop中combiner和partition的作用8.你在MapRed
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点​​这里​​可以跳转到教程。”。 ​​大数据面试宝典目录,请点击​​HADOOP 面试题目录1. 下列哪项通常是集群的最主要瓶颈2. 下列哪项可以作为集群的管理工具?3. 下列哪个是Hadoop 运行的模式?4. 列举几个hadoop 生态圈的组件并
原创 2022-12-28 15:19:40
209阅读
1. kafka分区数如何设置?默认情况下 1 指定分区,按你指定的分区 2 未指定分区,但是指定了key,依据key的hashCode计算分区 3 未指定分区,且没有指定key,依据轮询算法计算分区2. kafka中消息传输一致中的最多一次、最少一次、恰好一次,是如何实现的?恰好一次:acks=-1 ,幂等机制 最多一次:acks=0 最少一次:acks=-1 or acks=13. Spark
1、简要描述如何安装配置一个apache开源版hadoop,描述即可,列出步骤更好        --解压hadoop包,到指定安装文件夹        --配置linux基本网络环境、jdk环境、防火墙环境      &nbsp
题目
原创 2023-03-07 00:21:32
25阅读
Hadoophadoop中常问的就三块,第一:分布式存储(HDFS);第二:分布式计算框架(MapReduce);第三:资源调度框架(YARN)。1. 请说下HDFS读写流程这个问题虽然见过无数次,面试官问过无数次,还是有不少面试者不能完整的说出来,所以请务必记住。并且很多问题都是从HDFS读写流程中引申出来的。HDFS写流程:Client客户端发送上传请求,通过RPC与NameNode建立通信,
转载 2023-09-08 12:45:13
76阅读
1、集群的最主要瓶颈磁盘IO2、Hadoop运行模式单机版、伪分布式模式、完全分布式模式3、Hadoop生态圈的组件并做简要描述1)Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务,配置维护,命名服务。2)Flume:一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。3)Hbase:是一个分布式的、面向列的开源数据库, 利用Hadoop HDFS作为其存储系统。4)Hive:基于Hado...
原创 2021-06-10 21:08:47
156阅读
hadoop组成? MapReduce 计算 Yarn 资源调度 hdfs 数据存储 Common 辅助工具 如何安装hadoop? 1.安装jdk 安装hadoop 2.格式化 hadoop namenode-format 3.启动节点 start-all.sh hadoop中需要哪些配置文件? 1)core-site.xml 全局配置 2)hdfs-site
转载 2021-07-16 09:50:25
10000+阅读
1、hadoop常用端口号 hadoop2.x Hadoop3.x 访问HDFS端口 50070 9870 访问MR执行情况端口 8088 8088 历史服务器 19888 19888 客户端访问集群端口 9000 8020 2、hadoop集群搭建 hadoop搭建流程概述: (1)准备三个客户端 ...
转载 2021-07-14 19:27:00
158阅读
2评论
  • 1
  • 2
  • 3
  • 4
  • 5