HBase架构Hbase主要包含HMaster/HRegionServer/Zookeeper1)HRegionServer 负责实际数据读写. 当访问数据时, 客户端直接与RegionServer通信.HBase表根据Row Key区域分成多个Region, 一个Region包含这这个区域内所有数据. 而Region server负责管理多个Region, 负责在这个Region serv
目录1.描述一下hdfs写流程 读流程?2.详细讲解一下hdfs体系结构3.如果一个datanode出现宕机,恢复流程是什么样?4.通常你是如何解决HaddopNameNode宕机,流程是什么?5.描述一下NameNode元数据管理 6.Hadoop集群中有哪些进程?他们各自有什么作用?7.讲解一下Hadoop中combiner和partition作用8.你在MapRed
转载 2023-12-20 20:41:58
119阅读
目录1 每天百亿数据存入HBase,如何保证数据存储正确和在规定时间里全部录入完毕,不残留数据2 HBase 如何给WEB前端提供接口来访问?3 HBase优化方法4 HBase中RowFilter和BloomFilter原理5 HBase导入导出方式6 Region如何预建分区7 HRegionServer宕机如何处理?8 HBase简单读写流程9 HBaseHive对比10 HBas
转载 2023-07-18 11:45:32
67阅读
一、求单月访问次数和总访问次数1、数据说明数据字段说明用户名,月份,访问次数数据格式A,2015-01,5 A,2015-01,15 B,2015-01,5 A,2015-01,8 B,2015-01,25 A,2015-01,5 A,2015-02,4 A,2015-02,6 B,2015-02,10 B,2015-02,5 A,2015-03,16 A,2015-03,22 B,2015-03
HadoopHadoop 中常问就三块,第一:分布式存储(HDFS);第二:分布式计算框架(MapReduce);第三:资源调度框架(YARN)。1. 请说下 HDFS 读写流程 img HDFS 写流程:1.客户端发送上传请求,并通过RPC与NameNode建立通信。NameNode检查用户是否有上传权限,上传文件在HDFS对应目录下是否同名。如果其中任何一个不满足,就会直接报
转载 2024-01-09 21:54:27
114阅读
  1.简要描述一下如何安装一个apache开原版hadoop,无需列出完整步骤。  1.创建hadoop用户.  2.setup修改IP.  3.安装javaJdk,并且修改etc/profile文件,配置java环境变量.  4.修改host文件域名  5.安装SSH免密码通信。  6.解压hadoop包.  7配置conf文件下hadoop-env.sh.core-site.sh
转载 2023-08-18 20:44:13
56阅读
单行强一致性实现方式 HBase 操作粒度是 行(RowKey),一行数据一定存放在同一个 RegionServer 上。 写入时先写 WAL 再写 MemStore,保证数据持久性和一致性。 行级操作(Put/Delete/CheckAndPut/Increment)都是 原子性。 内 ...
转载 1月前
362阅读
hao123 hbase面试题 常见面试题 1,hbase读流程 首先通过meta表找到要读数据region所在RegionServer,然后去BlockCash中读取,如果没有就去Memstore中读取,如果也没有,那就去Hfile中去读 (1) 客户端访问Zookeeper,获取存放目标数据
转载 2020-07-31 00:26:00
164阅读
2评论
Hadoophadoop中常问就三块,第一:分布式存储(HDFS);第二:分布式计算框架(MapReduce);第三:资源调度框架(YARN)。1. 请说下HDFS读写流程这个问题虽然见过无数次,面试官问过无数次,还是有不少面试者不能完整说出来,所以请务必记住。并且很多问题都是从HDFS读写流程中引申出来。HDFS写流程:Client客户端发送上传请求,通过RPC与NameNode建立通信,
转载 2023-09-08 12:45:13
94阅读
1.hdfs写数据流程1.客户端向namenode请求上传文件,namenode检测该文件是否已存在,父目录是否存在,然后返回是否可以上传。 2.客户端请求上传第一个block,namenode返回三个节点(dn1,dn2,dn3)。 3.客户端向dn1请求上传数据,dn1收到请求后会调用dn2,dn2调用dn3,建立传输通道,dn1、dn2、dn3逐级应答。 4.客户端开始往dn1上传第一个bl
转载 2024-02-13 23:09:36
75阅读
1,hbase读流程首先通过meta表找到要读数据region所在RegionServer,然后去BlockCash中读取,如果没有就去Memstore中读取,如果也没有,那就去Hfile中去读 (1) 客户端访问Zookeeper,获取存放目标数据Region信息,从而找到对应RegionServer。 (2) 通过RegionServer获取需要查找数据。 (3) Regionser
转载 2023-08-21 09:38:21
108阅读
Hive面试题整理(一) 1、Hive表关联查询,如何解决数据倾斜问题?(☆☆☆☆☆) 1)倾斜原因:map输出数据按key Hash分配到reduce中,由于key分布不均匀、业务数据本身特、建表时考虑不周、等原因造成reduce 上数据量差异过大。 (1)key分布不均匀; (2)业务 ...
转载 2021-08-22 20:31:00
58阅读
2评论
Hivehive 内部表和外部表区别 hive 有索引吗 运维如何对hive进行调度 ORC、Parquet等列式存储优点 数据建模用哪些模型? 为什么要对数据仓库分层? 使用过Hive解析JSON串吗
原创 2021-06-12 00:10:03
978阅读
Hivehive 内部表和外部表区别 hive 有索引吗 运维如何对hive进行调度 ORC、Parquet等列式存储优点 数据建模用哪些模型? 为什么要对数据仓库分层? 使用过Hive解析JSON串吗
原创 2021-06-12 00:10:20
965阅读
# Hive面试题简介 在大数据领域,Hive 是一个构建在 Hadoop 之上数据仓库,它提供了一个方便 SQL 接口用于查询和分析大数据。 Hive 最初是由 Facebook 开发,用于处理大规模结构化数据。它被设计成类似于传统数据库查询语言,使得开发人员可以使用 SQL 语句来查询和处理存储在 Hadoop 中数据。 在 Hive 发展过程中,出现了很多与 Hive
原创 2023-07-17 19:29:22
111阅读
Hive面试题—理清hive应用思路问题:有一张很大表:TRLOG该表大概有2T左右。TRLOG: CREATE TABLE TRLOG (PLATFORM string, USER_ID int, CLICK_TIME string, CLICK_URL string) row format delimited fields terminated by '\t'; 数据:PLATFORM
转载 2024-06-05 05:35:38
142阅读
hive 使用,内外部表区别,分区作用, UDF 和 Hive 优化(1)hive使用:仓库,工具(2)内部表:加载数据到hive所在hdfs目录,删除时,元数据文件都删除外部表:不加载数据到Hive所在hdfs目录,删除时,只删除表结构(3)分区作用:防止数据倾斜(4)UDF函数:用户自定义函数(主要解决格式,计算问题),需要继承UDF类 class TestUDFHive ext
转载 2023-08-11 20:45:49
132阅读
1、统计影音视频网站常规指标,各种 TopN 指标统计视频观看数 Top10统计视频类别热度 Top10统计出视频观看数最高 20 个视频所属类别以及类别包含 Top20 视频个数统计视频观看数 Top50 所关联视频所属类别排序统计每个类别中视频热度 Top10,以 Music 为例统计每个类别视频观看数 Top10统计上传视频最多用户 Top10 以及他们上传视频观看次数在前
转载 2023-09-12 11:13:32
194阅读
1、HBase特点是什么?1)大:一个表可以有数十亿行,上百万列;2)无模式:每行都有一个可排序主键和任意多列,列可以根据需要动态
原创 2022-05-16 09:17:25
1155阅读
关于MySQL分库分表方案相关描述,错误是:(C)A.当服务器性能出现瓶颈需要扩容时,常常采取“翻倍”分库增加服务器方案,导致资源
原创 2022-07-01 17:53:55
82阅读
  • 1
  • 2
  • 3
  • 4
  • 5