算法部分1、给定一个大文件(即无法一次性加载到内存中,以下的大文件均为该定义),每行代表一个访问IP,统计出现次数最多的IP。 1)逐行读取数据,并将数据映射(如取模)到N个小文件中; 2)以IP为Key,频率为Value,分别统计每个小文件中每个IP出现的次数; 3)找出每个小文件中出现次数最多的IP; 4)对这N个小文件出现次数最多的IP进行排序,得到最终结果。2、在1的基础上,求出现次
转载 2024-05-13 17:55:44
145阅读
大数据面试题汇总**牛客网刷sql题**redisflumeflink(大部分知识点写过的帖子里都有)mr,java ,集群算法题kafka维度建模分为哪几种?SQL高频面试题hbasejvmmysqlsql递归hivejavahdfs数据治理 牛客网刷sql题 redis为什么快 首先,采用了多路复用io阻塞机制 然后,数据结构简单,操作节省时间 最后,运行在内存中,自然速度快 – 完全基于内
前言 结合最近面试经历,整理了一些题目,希望对小伙伴们有帮助。内容1、Java2、Scala3、Spark4、Hive5、Hadoop6、Kafka7、Flink8、算法9、数据结构...
原创 2022-11-03 14:02:55
43阅读
 HDFS的体系架构       整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持,并通过MR来实现对分布式并行任务处理的程序支持。NameNode和若干个DataNode组成的(在最新的Hadoop2.2版本已经实现多个NameNode的配置-这也是一些大公司通过修改hadoop源代码实现的功能,在最新
多图技术贴:深入浅出解析大数据平台架构 目录:什么是大数据Hadoop介绍-HDFS、MR、Hbase大数据平台应用举例-腾讯公司的大数据平台架构“就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方
大数据的4V特征Google分布式计算的三驾马车Google File System用来解决数据存储的问题,采用N多台廉价的电脑,使用冗余(也就是一份文件保存多份在不同的电脑之上)的方式,来取得读写速度与数据安全并存的结果。Map-Reduce说穿了就是函数式编程,把所有的操作都分成两类,map与reduce,map用来将数据分成多份,分开处理,reduce将处理后的结果进行归并,得到最终的结果。
转载 2023-06-09 12:32:47
202阅读
HDFS(Hadoop Distributed File System)是Hadoop生态系统中的一个分布式文件系统,它是为了解决大规模数据存储和处理问题而设计的。HDFS的设计目标是能够在廉价的硬件上存储和处理大规模数据集,并且具有高容错性、高可靠性和高扩展性。HDFS的架构HDFS的架构由两个主要组件组成:NameNode和DataNode。NameNode是HDFS的中心节点,它负责管理文件
转载 2023-09-26 21:38:10
97阅读
自我介绍 + 项目介绍数仓为什么要分层?数据仓库都分哪几层?简单介绍一下 Mapreduce 工作原理?Hdfs 的读数据流程了解吗?Hdfs 的写操作呢?zookeeper的选举过程Spark 为什么比 MapReduce 快?Spark 任务执行流程?Spark 用过的解决数据倾斜的方案说一下?Flink 的四大基石都有哪些?watermark 的作用是啥?如何保证数据不丢失?Flink 如何
         整个大数据处理的体系,按我的理解可以分为两个部分,一个是分布式存储系统、另一个是分布式计算框架。分布式存储系统主流是HadoopDFS,其他还有Ceph和Swift。分布式计算框架主流是MapReduce,Storm和Spark。      
转载 2023-09-03 16:59:14
127阅读
    大数据处理的思路一般是这样的:把一个内存中放不下的文件按照一定的方法切分成小文件,再看是否有合适的数据结构能解决这个问题。当然,有时候不用切分,用位图也可以解决,根据具体问题而定。接下来我们看看下面几道大数据面试题,这种题一般面试官也只是需要一个思路。1)给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址?问题分析:&
面试流程和内容大致有以下几个:一、8月9日,友盟软件公司考试大概内容:1、网络部分:Tcp/ip基础知识,交换机的stp协议,vlan,三层交换,路由器的ospf路由协议,bgp协议等。2、unix系统:主要考试内容为hp-unix的基础知识,磁带机的备份等,我以linux作答。3、windows系统:活动目录的基本知识,组策略。4、数据库:主要考试了oracle,informix,sql数据库的
转载 2008-07-25 10:05:45
1780阅读
大数据面试题:Zookeeper架构
原创 2023-07-02 00:50:03
117阅读
大数据SQL面试题本套SQL题的答案是由许多小伙伴共同贡献的,1+1的力量是远远大于2的,有不少题目都采用了非常巧妙的解法,也有不少题目有多种解法。本套大数据SQL题不仅题目丰富多样,答案更是精彩绝伦!注:以下参考答案都经过简单数据场景进行测试通过,但并未测试其他复杂情况。本文档的SQL主要使用Hive SQL。#一、行列转换描述:表中记录了各年份各部门的平均绩效考核成绩。 表名:t1 表结构:a
转载 2023-08-11 21:46:21
141阅读
文章目录前言一、考察SQL能力*初级*1. 表A只有一个字段ID,值为[1,2,2,3,3,3]。现要求查询出重复的id2.表A又两个字段ID和Create_Time,计算今天新增的ID表[不包含昨天的那一部分];3. 表A和表B都只有一个字段Account,如果account来自A则输出red,来自B则输出blue;4. 计算字符串'ABCABC' 中字符A的个数*高级*5. 表A有两个字段I
[图片][图片][图片][图片][图片][图片][图片][图片][图片][图片][图片][图片]
翻译 2021-01-26 16:55:45
841阅读
前面提到各种大数据技术的原理与架构大数据计算通过将可执行的代码分发到大规模的服务器集群上进行分布式计算,以处理大规模的数据,即所谓的移动计算比移动数据更划算。但是这样的计算方式必然不会很快,即使一个规模不太大的数据集上的一次简单计算,MapReduce也可能需要几分钟,Spark快一点,也至少需要 ...
转载 2021-10-13 15:14:00
285阅读
2评论
大数据平台架构基于HBase和Spark构建企业级数据处理平台1.1 一站式数据处理平台架构1.2 典型业务场景1.2.1 爬虫+搜索引擎1.2.2 大数据风控系统1.2.3 构建数据仓库(推荐、风控)基于HBase和Spark构建企业级数据处理平台[基于HBase和Spark构建企业级数据处理平台]:阿里云数据库 李伟(沐远) PPT 演讲稿1.1 一站式数据处理平台架构1.2 典型业...
原创 2021-06-05 14:45:23
1143阅读
以Spark作为计算框架的架构
原创 2021-08-31 16:50:39
371阅读
# OpenStack平台面试题目实现指南 在当今的技术环境中,OpenStack作为一个强大的开源云计算平台,被广泛用于构建公有云和私有云基础设施。对于刚入行的小白来说,了解如何在OpenStack上实现一些面试题目非常重要。本文将为您详细讲述实现OpenStack相关面试题目的基本流程,并提供所需要的代码及其解释。 ## 实现流程 在实现OpenStack平台面试题目的过程中,可以按照以
原创 9月前
112阅读
  • 1
  • 2
  • 3
  • 4
  • 5