大数据面试题记得点赞
原创 精选 2021-02-18 21:40:07
1301阅读
  1.简要的描述一下如何安装一个apache开原版的hadoop,无需列出完整步骤。  1.创建hadoop用户.  2.setup修改IP.  3.安装javaJdk,并且修改etc/profile文件,配置java的环境变量.  4.修改host的文件域名  5.安装SSH免密码通信。  6.解压hadoop包.  7配置conf文件下的hadoop-env.sh.core-site.sh
转载 2023-08-18 20:44:13
56阅读
目录36.HDFS文件能否直接删除或则修改?37.谈谈hdfs中的block、package、chunk?38.HDFS能否多线程写?39.读写过程,数据完整性如何保持?40.文件授权期限分为几个等级?41.谈谈hdfs中的Checksum?42.谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?43、什么样的计算不能用mr来提速?44.hadoop主要的端口有哪些?45.请简述Ha
转载 2023-07-12 11:21:25
70阅读
1、 HDFS 中的 block 默认保存几份?默认保存3份2、HDFS 默认 BlockSize 是多大?默认64MB3、负责HDFS数据存储的是哪一部分?DataNode负责数据存储4、SecondaryNameNode的目的是什么?他的目的使帮助NameNode合并编辑日志,减少NameNode 启动时间5、文件大小设置,增大有什么影响?HDFS中的文件在物理上是分块存储(block),块的
HadoopHadoop 中常问的就三块,第一:分布式存储(HDFS);第二:分布式计算框架(MapReduce);第三:资源调度框架(YARN)。1. 请说下 HDFS 读写流程 img HDFS 写流程:1.客户端发送上传请求,并通过RPC与NameNode建立通信。NameNode检查用户是否有上传权限,上传的文件在HDFS对应的目录下是否同名。如果其中任何一个不满足,就会直接报
转载 2024-01-09 21:54:27
114阅读
Hadoop阶段面试题HDFSMapReduce1.介绍一下 MR 的工作原理MapTask的工作机制read:通过RecordReader,从输入的InputSplit中解析出一个个kv假设待处理文件/user/input/ss.txt为200m(hadoop默认切片与分块大小为128M)切片大小实现:computeSplitSize(Math.max(minSize,Math.min(maxS
转载 2023-09-14 14:15:40
63阅读
一:三个面试题面试题一:有一个非常大的文件,一台机器处理不了,存储的是ip每行一个,统计一下出现次数最多的那个ip。如果是小文件1)创建io流对这个文件进行读取,将读取的内容放在map集合中(ip,次数)2)循环遍历map集合,取出value最大的值大文件情况map集合,list集合,数组,set集合——-都是在内存进行操作的,文件过大会造成内存溢出,根本无法处理。一台机器原始性能有限,根据摩尔定
转载 2024-05-30 09:22:31
137阅读
    1、当前大数据技术的基础是由( C)首先提出的。(单选题,本题2分)A:微软B:百度C:谷歌D:阿里巴巴 2、大数据的起源是(C)。(单选题,本题2分)A:金融B:电信C:互联网D:公共管理 3、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是(C)。(单选题,本题2分)A:数据管理人员B:数据分析员C:研究科学家D:软件开发工程师 4、(D)反映
原创 2021-05-20 14:30:44
1031阅读
1.0简要描述如何安装配置apache的一个开源hadoop,只描述即可,无需列出具体步骤,列出具体步骤更好。答:第一题:1使用root账户登录2 修改IP3 修改host主机名4 配置SSH免密码登录5 关闭防火墙6 安装JDK6 解压hadoop安装包7 配置hadoop的核心文件 hadoop-env.sh,core-site.xml , mapred...
转载 2021-08-30 11:26:26
1349阅读
1点赞
1、请讲述HDFS输入文件的具体步骤?1、Client向NameNode 提交需要上传文件的申请2、NameNode返回响应给Client,同意上传文件的请求3、Client向NameNode 申请子节点DataNode.4、NameNode 响应给Client它的子节点DataNode5、Client 向DataNode提交申请建立传输通道。6、DataNode 依次响应连接 (dn1,dn2,
转载 2023-08-08 02:15:29
87阅读
文章目录1、集群的最主要瓶颈2、Hadoop运行模式3、Hadoop生态圈的组件并做简要描述4、解释“hadoop”和“hadoop 生态系统”两个概念5、请列出正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程,它们的作用分别是什么?6、基于 Hadoop 生态系统对比传统数据仓库有何优势?7、如何选择不同的文件格式存储和处理数据CSV 文件JSON 文件Avro 文件Column
转载 2023-07-13 16:44:15
266阅读
前言结合南国 不到一年时间 学习大数据的知识梳理,加上2019年春天找实习的经历,在这里南国写博客的同时会参考一些资料 写出大数据内一些高频的面试知识点。1.Hadoop基础1.1 通常是集群的最主要瓶颈:磁盘IOcpu 和内存在大数据集群中都是可以扩充的,磁盘不行。1.2 Yarn,ClouderaManager可以作为集群的管理,zookeeper不可以。Zookeeper:是一个开源的分布式
转载 2023-09-04 14:50:19
20阅读
待续: Hadoop shuffle流程 Hive调优 kafka 数据重复和数据乱序:幂等性 flume调优 监控hadoop 0.什么是hadoo Hadoop是一个分布式系统基础架构,解决数据存储和数据分析计算的问题1.hadoop三大框架及作用 1.HDFS:数据的存储 2.Mapreduce:数据的计算 3.YARN :给计算框架分配资源 2.HDFS读流程
转载 2023-10-08 23:45:04
136阅读
hadoop 2022 面试题总结了目录概述需求:设计思路相关代码如下:实验效果:分析:小结:目录概述hadoop 学习资料需求:设计思路相关代码如下:实验效果:待完成分析:16、FileInputFormat切片机制 job提交流程源码详解   waitForCompletion()   submit(); //建立连接: Connect();//创建提交job的代理 ///判断是本
如果帮到了您,可以支持一下,谢谢您的支持!我会及时补充的面试题使对象可以像数组一样进行foreach循环,要求属性必须是私有。  class sample implements Iterator { private $_items = array(1,2,3,4,5,6,7); public function __construct() {
转载 2024-09-04 15:27:08
17阅读
1、前端面试题
原创 2022-11-26 16:42:16
1067阅读
ES面试题1.为什么要使用ES? 系统中的数据,随着业务的发展,时间的推移,将会非常多,而业务中往往采用模糊查询进行数据的搜索,而模糊查询会导致查询引擎放弃索引,导致系统查询数据时全表扫描,在百万级别的数据库中,查询效率是非常低下的,而我们使用ES做一个全文索引,将经常查询的系统功能的某些字段,比如说电商系统的商品表中的商品,描述、价格还有id这些字段我们放入ES索引库里,可以提高查询速度。2.E
转载 2024-05-08 19:29:21
80阅读
Part1:写在最前 2015年,很倒霉的一年。满心欢喜的从国企出来,进入互联网,本以为自己的技术还算可以,结果面试缕缕碰壁。原因说出来也不怕大家笑话,本人从不背什么面试题,一直属于想到哪就说到哪那种。也因为如此,楼主错过了一家比较不错的公司面试机会~ 后来的面试期间,积累了不少面试题,下面我就拿出来,和大家分享下,希望能帮助大家找到满意的工作,有些题目是原题,有些是我认为一个优秀的DBA应该懂
转载 2024-05-26 12:48:38
43阅读
1. Intent的几种有关Activity启动的方式有哪些,你了解每个含义吗?   Intent的一些标记有FLA
原创 2023-07-12 22:19:58
117阅读
## iOS 最新面试题实现流程 为了帮助这位刚入行的小白实现“iOS 最新面试题”,我们可以按照以下步骤进行: | 步骤 | 描述 | | --- | --- | | 步骤一 | 创建新项目 | | 步骤二 | 设计界面 | | 步骤三 | 实现业务逻辑 | ### 步骤一:创建新项目 首先,我们需要创建一个新的iOS项目来实现我们的面试题。可以按照以下步骤进行: 1. 打开Xcode
原创 2023-10-28 04:50:30
40阅读
  • 1
  • 2
  • 3
  • 4
  • 5