HDFS架构主从(Master/Slaves)架构由一个NameNode和一些DataNode组成NameNode负责存储和管理文件元数据,并维护了一个层次型的文件目录树DataNode负责存储文件数据(block块),并提供block的读写DataNode与NameNode维持心跳,并汇报自己持有的block信息Client和NameNode交互文件元数据和DataNode交互文件b            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-11 10:39:21
                            
                                104阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录介绍配置存储副本的内存限制在DataNode上配置使用RAM disk选择tmpfs(与ramfs相比)挂载RAM disk使用 RAM_DISK 存储类型标记 tmpfs 卷确保启用了存储策略应用程序的使用为目录调用 hdfs storagepolicies 命令为目录调用setStoragePolicy 方法为新文件传递创建标记LAZY_PERSIST参考 介绍  HDFS支持将数据写入            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-18 14:01:33
                            
                                144阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            HDFS概述HDFS(Hadoop Distributed File System)是Apache Hadoop 项目的一个子项目。Hadoop非常实用存储大型数据,TB和PB级别的,其就是使用的HDFS作为存储系统。HDFS是分布式文件系统使用多台计算机存储文件,并提供统一的访问接口,就像访问本地普通文件系统一样。分布式文件系统解决的就是大数据存储问题。他们是横跨在多台计算机上的存储系统。分布式            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-23 18:00:17
                            
                                47阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1:什么是HDFS?  HDFS适合做:存储大文件。上G、T甚至P。一次写入,多次读取。并且每次作业都要读取大部分的数据。搭建在普通商业机群上就可以了。虽然会经常宕机,但HDFS有良好的容错机制。HDFS不适合做:实时数据获取。如果有这个需求可以用HBase。很多小文件。因为namenode要存储HDFS的metadata(比如目录的树状结构,每个文件的文件名、ACL、长度、owner、文件内容            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-22 19:28:13
                            
                                78阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1.什么是HiveHive 是由 Facebook 实现并开源
是基于 Hadoop 的一个数据仓库工具
可以将机构化数据映射为一张数据库表
提供 HQL(Hive SQL)查询功能
底层数据是存储在 HDFS 上
hive的本质是将 SQL 语句转化为 MapReduce 任务运行
使不熟悉 MapReduce 的用户很方便的利用 HQL 处理和计算 HDFS 上的结构化数据,适用于离线批量数据            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-12 14:41:47
                            
                                220阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            归档存储是一种将不断增长的存储容量与计算容量分离开来的解决方案。密度更高、存储成本更低、计算能力更低的节点正在成为可用的、可以在集群中用作冷存储。根据策略,可以将热数据移到冷数据。增加节点到冷存储中可以增加不依赖于集群计算容量的存储容量。异构存储和归档存储提供的框架对HDFS体系结构进行了概括,使其包含了SSD、内存等其他类型的存储介质。用户可以选择将数据存储在SSD或内存中以获得更好的性能。存储            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-04 14:09:38
                            
                                63阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            异构存储主要解决,不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。Hadoop的存储类型和存储策略有;1、查看当前有哪些存储策略可以用 [atguigu@hadoop102 hadoop-3.1.3]$ hdfs storagepolicies-listPolicies 2、为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePol            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-25 16:28:59
                            
                                83阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            hdfs的元数据辅助关联在Hadoop的集群当中,NameNode的所有元数据信息都保存在了FsImage(镜像文件)与Eidts(日志文件)文件当中,这两个文件就记录了所有的数据的元数据信息,元数据信息的保存目录配置在hdfs-site.xml中。edits: edits存放了客户端最近一段时间的操作日志 客户端对HDFS进行写文件时会首先被记录在edits文件当中 edits修改时,元数据也会            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-09-21 08:16:09
                            
                                49阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            hdfs如何让某些数据查询快,某些数据查询慢?hdfs冷热数据分层存储本质: 不同路径制定不同的存储策略。hdfs存储策略hdfs的存储策略 依赖于底层的存储介质。hdfs支持的存储介质:ARCHIVE:高存储密度但耗电较少的存储介质,例如磁带,通常用来存储冷数据DISK:磁盘介质,这是HDFS最早支持的存储介质SSD:固态硬盘,是一种新型存储介质,目前被不少互联网公司使用RAM_DISK :数据            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-07 11:40:30
                            
                                124阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            # Hive分区表HDFS存储路径创建指南
在大数据处理中,Hive分区表是一种非常重要的功能,它可以提高查询效率和整理数据的能力。本篇文章将指导您如何实现Hive分区表的HDFS存储路径。下面是整个流程的步骤概述:
## 流程概述
| 步骤 | 操作 |
|------|------|
| 1    | 安装与配置Hive |
| 2    | 启动Hive服务 |
| 3    | 创建            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-08-20 05:36:59
                            
                                80阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            2019.04.25更新,新增数据类型转换部分一.装载数据--可自动创建分区
load data [local] inpath 'file_path' [overwrite] into table table_name [partition(partcol1=val1,parcol2=val2...)]使用local关键字,那么'file_path'应该为本地文件系统(hive客户端所在系统,如L            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-12 21:27:28
                            
                                357阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Hive安装与配置安装前准备三台虚拟机master、slave1、slave2配置hadoop用户,之间免密登录,时钟同步,hadoop健康可用Hadoop与Hive的整合因为Hive需要把数据存储在HDFS上,并且通过MapReduce作为引擎处理数据; 因此需要在Hadoop中添加相关配置属性,以满足Hive在Hadoop上允许。 修改Hadoop中core-site.xml,并且Hadoop            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-12 20:22:19
                            
                                700阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Hive:hive不支持更改数据的操作,Hive基于Hadoop上运行,数据存储在HDFS上。         Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-11 19:48:43
                            
                                354阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1、执行hive,进入hive窗口2、执行show databases,查看所有的database;3、执行use origin_enn            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-11-03 14:19:44
                            
                                986阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            [技术笔记][Hadoop][HDFS]异构存储-存储类型与策略从Hadoop 2.6开始支持异构存储,主要涉及两个概念:存储类型和存储策略。存储类型存储类型表示数据节点支持的多种物理存储介质的类型,有如下几类:  * RAM_DISK(transient)  * SSD  * DISK(default)  * ARCHIVE列表中的前三个都比较好理解,分别对应内存、SSD和机械磁盘,其中内存一般            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-25 16:11:26
                            
                                89阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一、说明:  将关系型数据库中的数据导入到 HDFS(包括 Hive, HBase) 中,如果导入的是 Hive,那么当 Hive 中没有对应表时,则自动创建。二、操作1、创建一张跟mysql中的im表一样的hive表im:sqoop create-hive-table \
--connect jdbc:mysql://192.168.200.100:3306/yang \
--username            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-05 21:23:19
                            
                                51阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            概述Hadoop技术体系中,hdfs是重要的技术之一,而真实的数据都存储在datanode节点之上,DataNode 将数据块存储到本地文件系统目录中,而每个datanode节点可以配置多个存储目录(可以是不同类型的数据硬盘),hdfs-site.xml (dfs.datanode.data.dir 参数)。一般的hadoop集群datanode节点会配置多块数据盘,当我们往             
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-18 19:04:15
                            
                                54阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Hive支持的存储数的格式主要有:TEXTFILE 、SEQUENCEFILE、ORC、PARQUET1、列式存储和行式存储A-1【图A-1】左边为逻辑表,右边第一个为行式存储,第二个为列式存储。行存储的特点: 查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。列存储的特点: 因为每个字            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-29 21:25:12
                            
                                35阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Flume介绍Flume是Apache基金会组织的一个提供的高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。当前Flume有两个版本,Flume 0.9x版本之前的统称为Flume-og,Flume1.X版本被统称为Flume-ng。参考文档:ht            
                
         
            
            
            
            操作场景默认情况下,HDFS NameNode自动选择DataNode保存数据的副本。在实际业务中,可能存在以下场景:DataNode上可能存在不同的存储设备,数据需要选择一个合适的存储设备分级存储数据。DataNode不同目录中的数据重要程度不同,数据需要根据目录标签选择一个合适的DataNode节点保存。DataNode集群使用了异构服务器,关键数据需要保存在具有高度可靠性的机架组中。对系统的            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-22 10:24:56
                            
                                40阅读