上周面试数据开发职位主要从公司的视角讲一下记录下面试流水。1. 三面技术一轮hr,面到了cto 整体来看是这一周技术含量最高信息量最大的一个,1到4轮过了4个小时,技术上的问题主要问的对数据分层的理解。1. 一面自我介绍、目前团队的规模多大(20)、你负责的模块是那些(购物、短信、增长)、那几个人在做2. 数据架构图划分(五层架构讲了7分钟左右)3. 指标口径怎么统一 、那些工作(定标准
转载 2024-08-23 10:14:19
99阅读
本篇大部分内容參考网上,当中性能部分參考:http://blog.cloudera.com/blog/2009/12/7-tips-for-improving-mapreduce-performance/、http://www.idryman.org/blog/2014/03/05/hadoop-p...
转载 2016-01-06 09:47:00
204阅读
2评论
目录Hadoop1. 下列哪项通常是集群的最主要瓶颈2. 请列出正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程,它们的作用分别是什么?3. HDFS读写流程Spark1. 对于Spark存在的数据倾斜问题你有什么好的解决方法吗?2. 简述你所理解的 Spark 的 shuffle 过程3. Spark中的算子分为哪两类?Hive1. 谈一下hive的特点,以及hive和RDBMS
转载 2023-10-16 06:16:37
52阅读
1、MapReduced的工作流程输入分片(inputsplit):在进行map计算之前,mapreduce会根据输入文件计算输入分片(input split),每个输入分片(input split)针对一个map任务;存储的并非数据本身,而是一个分片长度和一个记录数据的位置的数组,输入分片(input split)往往和hdfs的block(块)关系很密切map阶段:程序员编写好的map函数了,
好程序员大数据培训分享Hadoop的shuffle过程,对大数据感兴趣想要学习或者是想要加入到大数据行业的小伙伴们就随小编一起来看一下吧。   Hadoop的shuffle过程就是从map端输出到reduce端输入之间的过程,这一段应该是Hadoop中最核心的部分,因为涉及到Hadoop中最珍贵的网络资源,所以shuffle过程中会有很多可以调节的参数,也有很多策略可以研究。这里没有对shuffl
==========================================================
原创 2022-11-03 14:04:35
56阅读
Hadoop面试常见的问题详解  1 . 谈谈数据倾斜,它如何发生的,并给出优化方案!  首先谈一下什么是数据倾斜?答:map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长。现象是 : 进度长时间维持在99%(或100%),查看任务监控页面,发现只有少
转载 2024-02-05 14:44:21
408阅读
第0章大数据概论一、大数据概念大数据:Big Data,指的是无法在一定时间范围内使用常规软进行捕捉,管理和处理的数据的集合。需要新的处理模式来进行决策力。洞察收取海量、高增长和多样化的信息进行管理。二、大数据的特点大量高速多样性低密度值三、大数据的应用场景物流仓储零售旅游商品广告推荐保险金融人工智能…四、大数据的部门组织结构平台组:数据仓储组:数据挖掘:报表工程:第一章Hadoop简介一、什么是
转载 2023-07-25 20:09:02
189阅读
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点​​这里​​可以跳转到教程。”。 ​​大数据面试宝典目录,请点击​​HADOOP 面试题目录1. 下列哪项通常是集群的最主要瓶颈2. 下列哪项可以作为集群的管理工具?3. 下列哪个是Hadoop 运行的模式?4. 列举几个hadoop 生态圈的组件并
原创 2022-12-28 15:19:40
234阅读
一、入门 1、常用端口号 2.x 50070:查看HDFS Web-UI 8088:查看MapReduce运行情况 19888:历史服务器 9000:hdfs客户端访问集群 50090:SecondaryNameNode 3.x: 50070-->9870 9000-->8020 3、Hadoop
原创 2022-05-27 18:03:45
143阅读
介绍下Hadoop
原创 2022-05-16 09:07:30
183阅读
1. 大数据的概念大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程  优化能力的海量、高增长率和多样化的信息资产。主要解决,海量数据的存储和海量数据的分析计算问题。1.2 大数据的包含以下4个特点:1.Volume(大量)2.Velocity(高速)3.Variety(多样)4
转载 2023-10-15 14:23:55
62阅读
MapReduce简介MapReduce是hadoop四大组件之一(HDFS,MapReduce,YARN和Comment),是一种分布式计算编程模型,用于解决海量数据的计算问题。MapReduce思想原理MapReduce采用分而治之的思想,将大文件切割成片,然后由多个map task并行处理,处理完成后交由reduce再做合并,最后输出结果MapReduce执行过程这里我们以经典例子WordC
转载 2024-01-11 09:10:09
95阅读
大数据开发面试笔记本篇博客是本人学习大数据开发各种框架和经历各种面试总结的一些笔记,不全在面试中遇到,可以当做知识复习巩固,如果您希望查看重点,可以重点看kafka和flink相关的问题(本人在面试中遇到比较多),或者重点看在您的项目中出现比较多的框架。可以配合另一篇博客java面试笔记,会让您在面试中更有信心,希望能对您有启发。一、hadoop1、HDFS的写数据流程(1) 客户端通过 Dist
转载 1月前
421阅读
大数据在近些年来越来越火热,人们在提到大数据遇到了很多相关概念上的问题,比如云计算、 hadoop等等。那么,大数据是什么、Hadoop是什么,大数据Hadoop有什么关系呢?  大数据概念早在1980年,著名未来学家阿尔文·托夫勒提出的概念。2009年美国互联网数据中心证实大数据时代的来临。随着谷歌 MapReduce和 GoogleFile System (GFS)的发布,大数据
hadoop是什么?Hadoop就是为大数据应运而生、Hadoop 框架是用 Java 编写的、Hadoop是Apache下的子项目、Hadoop是分布式系统基础架构,它主要是用于大数据的处理、Hadoop可以看成是一个平台或者生态系统。Hadoop生态系统包含哪些组件?有分布式存储HDFS,有并行计算 MapReduce,有NoSQL数裾库的HBase,有数据仓库工具 Hive, 有 Pig 工
转载 2023-09-06 20:43:14
63阅读
一、什么是大数据,什么是Hadoop        大数据:指无法再一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多元化的信息资产。        数据存储单位:bit<Byte&
转载 2024-02-22 15:39:19
64阅读
说明:以下内容仅为个人观点,仅供参考。说期望薪资一定要说具体值,不要说区间。问题尽可能回答的详细一点。 面试官问的一个问题,你回答的越细(比较问你shuffle流程你跟他说一个小时,甚至画张图出来),他后面越问的越少。 一方面是因为你一个问题都能答的那么细,他就觉得你其它方面也还可以。另一方面,面试也有时间限制的,后面的人可能还在等着呢。于是可能你答完这个问题,他随便再问一两个问题基本就可以谈薪资
转载 2023-05-26 14:55:12
133阅读
你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。
原创 2024-06-03 11:30:31
87阅读
1.大数据概述       近些年来,大数据这个词频繁出现在我们的生活中。那么大数据到底是什么呢,让我们一起来看一下。     通俗来说。大数据是一个概念也是一门技术,是在以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。大数据包括了以Hadoop和Spark为代表的基础大数据框架。还包括了数据挖掘、数据分析、实时数
  • 1
  • 2
  • 3
  • 4
  • 5