文章目录前言一、考察SQL能力*初级*1. 表A只有一个字段ID,值为[1,2,2,3,3,3]。现要求查询出重复的id2.表A又两个字段ID和Create_Time,计算今天新增的ID表[不包含昨天的那一部分];3. 表A和表B都只有一个字段Account,如果account来自A则输出red,来自B则输出blue;4. 计算字符串'ABCABC' 中字符A的个数*高级*5. 表A有两个字段I
大数据SQL面试题本套SQL题的答案是由许多小伙伴共同贡献的,1+1的力量是远远大于2的,有不少题目都采用了非常巧妙的解法,也有不少题目有多种解法。本套大数据SQL题不仅题目丰富多样,答案更是精彩绝伦!注:以下参考答案都经过简单数据场景进行测试通过,但并未测试其他复杂情况。本文档的SQL主要使用Hive SQL。#一、行列转换描述:表中记录了各年份各部门的平均绩效考核成绩。 表名:t1 表结构:a
转载 2023-08-11 21:46:21
141阅读
好程序员大数据培训分享Hadoop怎样处理数据?Hadoop在大数据平台的开发上,无疑是很多企业的第一选择,国内的华为、阿里、腾讯,国外的Facebook、亚马逊,都是基于Hadoop来开发自己的大数据平台,这也说明,Hadoop作为大数据平台是比较成熟可靠的。那么Hadoop怎样处理数据?下面和大家详细了解一下。   大数据其实主要涉及到的是分布式计算功能,目前主要的分布式计算系统,包括Hado
转载 2023-07-12 14:46:46
46阅读
本学习笔记为阿里云天池龙珠计划Docker训练营的学习内容一、学习知识点概要列表1、列表的定义2、列表的创建3、向列表中添加元素4、删除列表中的元素5、获取列表中的元素6、列表的常用操作符元组创建和访问一个元组更新和删除一个元组元组相关的操作符内置方法字符串字符串的定义字符串的切片与拼接字符串的常用内置方法字符串格式化二、学习内容列表的定义列表是有序集合,没有固定大小,能够保存任意数量任意类型的
  版本 时间 描述 V1.0 2020-12-18 创建 V1.2 2021-01-17 新增 spark 面试题 V1.3 2021-01-18 新增  kafka  面试题 V1.4 2021-01-20 新增 hbase 面试题 V1.5 2021-01-30 新增  flink  面试题     目录   Hadoo
原创 2021-07-28 06:42:57
623阅读
Linux部分 ①列举你使用的常用指令? ②怎么查看服务是否开启?后面的参数都是什么意思? ③怎么查看服务器内存使用情况? ④日志查看指令? ⑤跨机房怎么传输文件? Hadoop部分 ①怎么搭建一个Hadoop集群? ②Hadoop的Shuffer机制? ③切片概念?文件256M时,几个切片? ④M
原创 2021-07-20 09:29:34
302阅读
转载自: https://tieba.baidu.com/p/5524551174?red_tag=2452717583(花时间思考一下吧!)公司A:1.讲讲你做的过的项目。 项目里有哪些 难点重点注意点呢?2.讲讲多线程吧, 要是你,你怎么实现一个线程池呢?3.讲一下Mapreduce或者hdfs的原理和机
转载 2023-05-11 12:39:27
80阅读
大数据试题下列哪个程序通常与 NameNode 在一个节点启动?答案D A)SecondaryNameNode B)DataNode C)TaskTracker D)Jobtracker 解析:hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只有一个,...
原创 2021-07-08 14:34:11
323阅读
1、给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文
转载 2023-07-11 09:31:12
376阅读
大数据试题下列哪个程序通常与 NameNode 在一个节点启动?答案D A)SecondaryNameNode B)DataNode C)TaskTracker D)Jobtracker 解析:hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只有一个,...
原创 2022-01-28 14:23:01
289阅读
文章目录概述一:判断题二:选择题三:填空题 概述一:判断题1:根据IDC作出的估测,数据每两年增长一倍。 T2:根据IDC作出的估测,数据一直都在以每年50%的速度增长。 T3:大数据是一种价值密度低,而商业价值高的数据集合。 T4:大数据是由结构化、半结构化数据和非结构化数据组成的。 T·5:大数据是一种价值密度高,商业价值也高的数据集合。 F6:大数据是一种价值密度低,商业价值也低的数据集合
目录Hadoop1. 下列哪项通常是集群的最主要瓶颈2. 请列出正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程,它们的作用分别是什么?3. HDFS读写流程Spark1. 对于Spark存在的数据倾斜问题你有什么好的解决方法吗?2. 简述你所理解的 Spark 的 shuffle 过程3. Spark中的算子分为哪两类?Hive1. 谈一下hive的特点,以及hive和RDBMS
转载 2023-10-16 06:16:37
52阅读
大数据试题汇总**牛客网刷sql题**redisflumeflink(大部分知识点写过的帖子里都有)mr,java ,集群算法题kafka维度建模分为哪几种?SQL高频面试题hbasejvmmysqlsql递归hivejavahdfs数据治理 牛客网刷sql题 redis为什么快 首先,采用了多路复用io阻塞机制 然后,数据结构简单,操作节省时间 最后,运行在内存中,自然速度快 – 完全基于内
# 大数据数据挖掘面试题实现流程 ## 1. 确定面试题类型 在开始实现"大数据 数据挖掘 面试题"之前,我们需要确定面试题的类型。大数据数据挖掘面试题可以包括数据预处理、特征选择、模型训练、模型评估等方面的内容。我们需要根据实际情况确定具体的面试题类型。 ## 2. 数据准备 在进行数据挖掘之前,我们需要准备好相应的数据集。可以使用公开的数据集,或者自己收集并清洗数据数据准备的过程包括数据
原创 2023-10-29 08:44:53
105阅读
首先处理大数据的面试题,有些基本概念要清楚:
转载 2021-07-23 17:44:34
583阅读
讲一下spark 的运行架构????Cluster Manager(Master):在standalone模式中即为Master主节点,控一个进程一个spark程序的执行流程
原创 2022-12-12 21:20:37
652阅读
1. apm系统:a. druid.io:时序数据库;b. hbase(phoenix查询):⾮关系型分布式数据库;2. ⽤户⾏为分析系统:a. hive:基于hadoop的数据仓库⼯具;b. impala:基于hive的⼤数据实时分析引擎。3. HBase如何实现模糊查询?HTable table = new HTable(conf, tablename);Scan s = new Scan(); //查询rowkey包括xx的⾏Filter filter = new RowFilte
原创 2022-03-21 17:35:38
187阅读
# 大数据分析笔试题解读与代码示例 大数据分析是当前许多领域都高度关注的一个话题,尤其在数据驱动的决策过程中,分析数据的方法和工具显得尤为重要。针对大数据分析的笔试题,本文将通过一些示例代码来帮助大家理解相关概念,并展示如何应用这些概念。 ## 大数据分析的基本流程 在进行大数据分析时,通常可以遵循以下流程: 1. **数据收集**:从不同来源收集海量数据。 2. **数据预处理**:清理
# 大数据架构设计试题科普文章 在当今数据驱动的世界中,大数据架构设计显得至关重要。本文将为你介绍大数据架构的基本概念,并通过代码示例(包括Python和SQL)帮助你更好地理解。同时,我们还将使用Mermaid语法展示一个简单的关系图。希望通过这篇文章,你能对大数据架构有一个全面的认识。 ## 1. 什么是大数据架构? 大数据架构是系统化的设计方案,旨在有效地存储、处理和分析海量数据。它能
原创 8月前
24阅读
大数据试题分享
原创 2017-06-06 10:54:49
2609阅读
  • 1
  • 2
  • 3
  • 4
  • 5