一、单选题1、Shuffle中Partitioner 分区发生在哪个过程( A )A. 溢写过程B. 本地MergeC. reduce函数阶段D. map函数阶段 2、在整个maprduce运行阶段,数据是以(   A     )形式存在的A. key/valueB. LongWritableC.
转载 2023-07-13 11:15:57
123阅读
简单描述你对Hadoop集群SafeMode模式的理解?集群处于安全模式,不能执行重要操作(写操作),集群属于只读状态。但是严格来说,只是保证HDFS元数据信息的访问,而不保证文件的访问。集群启动完成后,自动退出安全模式, 如果集群处于安全模式,想要完成写操作,需要离开安全模式。 (1)bin/hdfs dfsadmin -safemode get (功能描述:查看安全模式状态) (2)bin/h
NO.5 CORRECT TEXT(第五题 正确文本)Problem Scenario 13 : You have been given following mysql database details as well as other info.(问题场景13:已经提供了以下mysql数据库详细信息和其他信息) user=retail_dba password=cloudera database
转载 10月前
62阅读
电话面试,30多分钟,本次面试主要是面试我的意愿,基础能力,解决问题的能力。如果面试完觉得我不错的话会帮我推到阿里达摩院面试系统里面进行正式的面试流程。1. 首先是自我介绍,项目经历,实习经历,毕业的一些想法。2. 面试问答问题:问烟火检测怎么降低误报率(容易把红色的目标误检成火)。(因为我的简历上面我写了我做过烟火检测)回答:针对烟火数据难以收集的问题,尤其是小烟和小火,可以考虑使用GAN网络来
转载 2024-08-02 12:34:25
31阅读
  单项选择题  1. 下面哪个程序负责 HDFS 数据存储。  a)NameNode  b)Jobtracker  c)Datanode  d)secondaryNameNode  e)tasktracker  2. HDfS 中的 block 默认保存几份?  a)3 份  b)2 份  c)1 份  d)不确定  3. 下列哪个程序通常与 NameNode 在一个节点启动?a)Seconda
转载 2024-06-13 08:19:51
75阅读
1.什么是sparkspark是基于内存计算的通用大数据并行计算框架,是一个快速、通用可扩展的大数据分析引擎。它给出了大一统的软件开发栈,适用于不同场合的分布式场景,如批处理、迭代算法、交互式查询、流处理、机器学习和图计算。2.Spark生态系统? SparkCore:spark的核心计算 主要Rdd SparkSQLa:提供了类sql方式操作结构化半结构化数据。对历史数据进行交互式查询。(即
spark运行流程  1.Driver创建一个sparkContext2.sparkContext向资源管理器注册并申请启动executor,资源管理器启动executor3.executor向sparkContext申请task4.sparkContext将应用程序分发给executor5.sparkContext建成DAG图,DAGScheduler将DAG图解析成stag
转载 2023-08-07 20:23:57
90阅读
1.什么是sparkSpark 是一个用来实现快速而通用的集群计算的平台。2.Spark生态系统?spark core:spark 核心计算 spark sql: 对历史数据的交互式查询 spark streaming : 近实时计算 spark ml : 机器学习 spark graphx : 图计算3.常见的 分布式文件系统?hdfs fastdfs Tachyon TFS(淘宝用) GFS
转载 2024-01-11 13:20:06
113阅读
hadoop相关面试题 以下未实际验证,可借鉴不可笃信。hadoop相关面试题1.hdfs写流程2.hdfs读流程3.hdfs的体系结构4.一个datanode 宕机,怎么一个流程恢复5.hadoop 的 namenode 宕机,怎么解决6.namenode对元数据的管理7.元数据的checkpoint8.yarn资源调度流程9.hadoop中combiner和partition的作用10.用ma
转载 2024-02-26 21:14:57
34阅读
Shuffle过程环形缓冲区的作用:key,value从map()方法输出,被outputcollector收集通过getpartitioner()方法获取分区号,在进入环形缓冲区。默认情况下,环形缓冲区大小值为100MB。当map输入的数据进入环形缓冲区的量达到80MB以上时,那么开始执行溢写过程,溢写过程中如果有其他数据进入,那么由剩余的百分之20反向写入。溢写过程会根据key,value先进
转载 2024-05-17 12:58:13
39阅读
# Spark 英文笔试题解决过程记录 在当前的数据处理和分析领域,Apache Spark越来越受欢迎。为了帮助更好地理解和解决“Spark英文笔试题”相关问题,接下来将详细展示相应的准备、步骤及扩展应用。 ## 环境准备 在进行Spark相关的开发之前,需要确保所需的工具和依赖已安装。 ```bash # 安装 Java JDK sudo apt-get install openjdk
原创 5月前
13阅读
若泽数据@Hadoop 试题一单选题 1、Hadoop 的作者(C) A:Martin Fowler   #敏捷开发方法论-软件开发教父B:Kent Beck      #极限编程,测试驱动开发,实现模式C:Doug Cutting D:James Gosling  #java之父2、YARNWebUI 默认端口是(B
转载 2024-01-09 22:17:37
35阅读
Hadoop常见面试题整理及解答一、基础知识篇:1.把数据仓库从传统关系型数据库转到hadoop有什么优势? 答: (1)关系型数据库成本高,且存储空间有限。而Hadoop使用较为廉价的机器存储数据,且Hadoop可以将大量机器构建成一个集群,并在集群中使用HDFS文件系统统一管理数据,极大的提高了数据的存储及处理能力。 (2)关系型数据库仅支持标准结构化数据格式,Hadoop不仅支持标准结
转载 2023-10-06 20:36:27
174阅读
# Hadoop Spark 程序试题 在大数据领域,HadoopSpark是两个非常重要的开源分布式计算框架。本文将介绍HadoopSpark的基本概念,并提供一些例子来演示如何使用它们。 ## Hadoop Hadoop是一个用于处理大规模数据集的分布式计算框架。它由两个核心模块组成:Hadoop Distributed File System (HDFS)和MapReduce。
原创 2023-08-14 13:58:39
26阅读
Spark core面试篇02 1.cache后面能不能接其他算子,它是不是action操作? 答:cache可以接其他算子,但是接了算子之后,起不到缓存应有的效果,因为会重新触发cache。 cache不是action操作 2.reduceByKey是不是action? 答:不是,很多人都会以为是action,reduce rdd是action 3.数据本地性是在哪个环节确定的? 具体的task
转载 2023-09-29 14:03:37
102阅读
1、海量日志数据提取出某日访问百度次数最多的IP,怎么做?2、有一个1G大小的文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。3、更智能&更大的数据中心架构与传统的数据仓库架构有何不同?传统的企业数据仓库架构基于 Hadoop 的数据中心架构4、运行Hadoop集群需要哪些守护进程?DataNode,NameNode,TaskTracker和
转载 2023-11-13 06:34:30
91阅读
很多中间件,都用到了 Zookeeper,比如大数据相关那一群小伙伴Kafka、Hadoop、HBase。作为一个分布式协同管理插件,Zookeeper被很多公司使用。又是一不得不学习的技术啊,给大家准备了36个知识点或者说面试题,又可以收藏一波了。1.CAP理论?C : Consistency 一致性,数据在多个副本之间似否能够保持一致的特性。A: Availability 可用性,系统服务必须
转载 2023-12-27 13:12:40
45阅读
Hadoop是什么从HDFS、MR、Yarn进行讲解。HDFS的读写流程读流程: 写流程:MR任务中的Shuffle过程Map方法之后Reduce方法之前这段处理过程叫「Shuffle」Map方法之后,数据首先进入到分区方法,把数据标记好分区,然后把数据发送到环形缓冲区;环形缓冲区默认大小100m,环形缓冲区达到80%时,进行溢写;溢写前对数据进行排序,排序按照对key的索引进行字典顺序
转载 2024-05-23 15:19:20
58阅读
spark面试问题1、spark中的RDD是什么,有哪些特性RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。 Dataset:就是一个集合,用于存放数据的Distributed:分布式,可以并行在集群计算Resilient:表示弹性的 弹性表示 
转载 2024-09-29 16:49:02
47阅读
1. kafka分区数如何设置?默认情况下 1 指定分区,按你指定的分区 2 未指定分区,但是指定了key,依据key的hashCode计算分区 3 未指定分区,且没有指定key,依据轮询算法计算分区2. kafka中消息传输一致中的最多一次、最少一次、恰好一次,是如何实现的?恰好一次:acks=-1 ,幂等机制 最多一次:acks=0 最少一次:acks=-1 or acks=13. Spark
转载 2024-02-17 09:35:04
93阅读
  • 1
  • 2
  • 3
  • 4
  • 5