Hadoop是一个分布式计算的开源框架,包含三大核心组件:HDFS(Hadoop Distributed System分布式文件系统)、HIVE(数据仓库工具)、HBASEHDFSHDFS是Hadoop生态圈最基础的存储引擎,请注意HDFS的设计主要为大文件存储,为高吞吐量的读取和写入服务,HDFS不适合存储小文件,也不支持大量的随机读写。Hive专门处理存储在HDFS数据仓库工具,通过Hive可            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-16 06:28:07
                            
                                68阅读
                            
                                                                             
                 
                
                             
         
            
            
            
             文章目录实验数据集下载下载实验数据集建立一个用于运行本案例的目录dbtaobao数据集的预处理删除文件第一行记录,即字段名称获取数据集中双11的前100000条数据导入数据仓库 实验数据集下载下载实验数据集data_format.zip数据集用户行为日志user_log.csv,日志中的字段定义如下:1. user_id | 买家id
2. item_id | 商品id
3. cat_id |             
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-09-23 11:44:19
                            
                                97阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            最近开始自学大数据,肯定免不了hadoop、hive、hbase这些东西。 
 此处把自己对这3个的理解记录一下: 
1、hadoop:它是一个分布式计算+分布式文件系统,前者其实就是MapReduce,后者是HDFS。后者可以独立运行,前者可以选择性使用,也可以不使用2、hive:通俗的说是一个数据仓库,仓库中的数据是被hdfs管理的数据文件,它支持类似            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-12 17:44:43
                            
                                120阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Hive是一种基于Hadoop的数据仓库基础设施,它提供了一种使查询和分析大规模数据集变得简单的方式。在使用Hive之前,需要先将其部署并将数据存储到Hadoop分布式文件系统(HDFS)。下面我将向你介绍如何实现“Hive部署存储到HDFS”的步骤和具体操作。
## 整体流程
首先,我们来看一下整个流程的步骤。下表展示了Hive部署存储到HDFS的步骤:
| 步骤 | 操作 |
| ---            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-01-12 11:57:17
                            
                                85阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            # HDFS to Hive
## Introduction
Hadoop Distributed File System (HDFS) and Hive are two essential components in the Hadoop ecosystem. HDFS is a distributed file system that provides high throughput ac            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-01-06 08:52:25
                            
                                45阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            准备启动一个centos容器docker run -i -t --name hadoop centos /bin/bash下载好需要的包[root@CyzLearnCloud sparklearn]# wget --no-check-certificate --no-cookies --header "Cookie: oraclelicense=accept-securebackup-cookie            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-03 21:25:56
                            
                                222阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、说明:  将关系型数据库中的数据导入到 HDFS(包括 Hive, HBase) 中,如果导入的是 Hive,那么当 Hive 中没有对应表时,则自动创建。二、操作1、创建一张跟mysql中的im表一样的hive表im:sqoop create-hive-table \
--connect jdbc:mysql://192.168.200.100:3306/yang \
--username            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-05 21:23:19
                            
                                51阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            -e适合简单查看的情况-f适合多条脚本,且输出结果较多,可将结果存在制定的文件 (在hive中查看hdfs和本地文件,hdfs在Linux命令前加dfs -,本地在Linux命令前加!)在hive中查看hdfs的文件 1、进入hive窗口2.dfs -ls /;查看hdfs根目录下文件 (dfs -lsr /;递归查看)在hive中查看Linux虚拟机本地文件  1、进入hiv            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-14 10:52:30
                            
                                1654阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Hive1.什么是Hive,Hive运行架构Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。通过Hive,我们可以方便地进行ETL(extract抽取/transform转化/load加载)的工作。1.Hive与Hbase的区别Hive:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-12 11:06:22
                            
                                356阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
                    hadoop是一个适合大数据处理的分布式的存储以及计算平台,我个人感觉称他为平台是 非常贴切的,因为不管是hive、hbase等这类产品都是需要依赖hadoop的两个核心hdfs和mapreduce。hdfs和mapreduce是hadoop平台的基础核心,其中hdfs是负责大数据的分布式存储,而mapreduce是            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-12 18:05:35
                            
                                64阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的。本文将尝试从其各自的定义、特点、限制、应用场景等角度来进行分析,以作抛砖引玉之用。 Hive是什么?Apache Hive是一个构建于Hadoop(分布式系统基础架构)顶层的数据仓库,注意这里不是数据库。Hive可以看作是用户编程接口,它本身不存储和计算数据;它依赖于HDFS(Hadoop分布式文件系统)和MapRe            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-14 11:36:17
                            
                                317阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            客户端在连接hiveserver2时,会在hdfs上创建${hive.exec.scratchdir}/<username> (开启doAs为登录用户,否则为启动用户)目录,用于存放作业执行过程中产生的临时文件,在执行某些作业时会产生大量的临时文件,如遇客户端异常或jvm异常退出,造成数据无法清理。hive提供如下方案解决清理临时文件问题:1、 hive.start.clea            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-18 22:50:03
                            
                                183阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Hive安装与配置安装前准备三台虚拟机master、slave1、slave2配置hadoop用户,之间免密登录,时钟同步,hadoop健康可用Hadoop与Hive的整合因为Hive需要把数据存储在HDFS上,并且通过MapReduce作为引擎处理数据; 因此需要在Hadoop中添加相关配置属性,以满足Hive在Hadoop上允许。 修改Hadoop中core-site.xml,并且Hadoop            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-12 20:22:19
                            
                                700阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            我们了解了数据仓库的基础知识,大概对数据仓库有了一个基本认识。接下来,我们来更进一步的了解数据仓库。就像我们学习数据库时学习mysql一样,我们学习学习数据仓库的HIVE.HIVE了解hive之前,我们其实需要学习下hadoop。不然你不知道hive是干啥的。HadoopHadoop实现了一个分布式文件系统,其中一个组件是HDFS(hadoop Distributed File System).            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-13 16:56:36
                            
                                163阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            环境配置: hadoop-2.0.0-cdh4.3.0 (4 nodes, 24G mem/node)
 hbase-0.94.6-cdh4.3.0 (4 nodes,maxHeapMB=9973/node)
 hive-0.10.0-cdh4.3.0 一、查询性能比较: query1: 
         select count(1) from on_hdfs;
         selec            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-03 22:04:39
                            
                                62阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一、hive简介 Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 最初,Hive是由Facebook开发,后来由Apache软件基金会开发,并作为进一步将它作为名义下Apache Hive为一个开源项目。Hive 没有专门的数据格式。            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-25 11:05:42
                            
                                101阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            这两天被hive的权限问题,折腾的不轻.记录一下Hive的基本配置我就不细说了,自行配置,网上一堆堆的.1.背景要求可以使用hdfs和hive用户操作自己创建的数据库. 权限不可乱. 要求,如下,[基本就是裸奔,没做任何配置,但依旧是坑不断.]1.hive没有设置任何权限 采用默认 NONE 2.hadoop权限体系采用默认最简单的Simple机制.3. 要求目录权限不能设置7774.            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-18 20:38:53
                            
                                102阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录前言资料HA高可用部署Hive安装部署Hbase安装部署sqoop安装部署解压安装包修改配置文件环境变量 sqoop-env.sh拷贝JDBC驱动测试Sqoop是否能够成功连接数据库kafka安装部署解压安装包 环境变量配置文件创建logs文件夹zookeeper.propertiesserver.properties启动集群验证关闭集群flume安装部署解压安装包配置环境            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-29 11:15:19
                            
                                75阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            hadoop-hive安装配置下载hive-0.8.1.tar.gz   ---------在ahdoop1.0.0这个版本上要使用这个版本以上    把这个文件解压在/hadoop/app目录下1.添加bin/hive-config.sh,添加jdk支持 exportJAVA_HOME=/usr/java/jdk1.7.0_02exportHIV            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-02 12:36:02
                            
                                68阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            数据清洗创建项目1、第一步导入json2、上传csv表格至hdfs3、创建hdfs文件夹4、上传表格5、清理库6、修改interpreter7、创建原始数据表并且上传csv文件数据问题分析.表格处理问题1:8001-8100数据的有重复问题2:过滤掉store_review中没有评分的数据问题3:credit_no的加密问题4:transaction数据按照日期YYYY-MM做分区 
csv处理            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-14 16:00:05
                            
                                94阅读
                            
                                                                             
                 
                
                                
                    