第1章 Sqoop 简介 Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,...) 间进行数据的高校传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导入到 Hadoop 的 HDFS 中
转载
2020-05-30 19:07:00
569阅读
2评论
第1章 Oozie 的简介 Oozie 英文翻译为:驯象人。一个基于工作流引擎的开源框架,由 Cloudera 公司贡献给 Apache,提供对 Hadoop MapReduce、Pig Jobs 的任务调度与协调。Oozie 需要部署到 Java Servlet 容器中运行。主要用于定时调度任务,
转载
2020-05-30 20:17:00
650阅读
2评论
一 概述 1.1 为什么需要工作流调度系统 1)一个完整的数据分析系统通常都是由大量任务单元组成: shell 脚本程序,java 程序,mapreduce 程序、hive 脚本等。2)各任务单元之间存在时间先后及前后依赖关系。3)为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行
转载
2020-05-30 19:09:00
1430阅读
2评论
第8章 压缩和存储(Hive高级) 8.1 Hadoop源码编译支持Snappy压缩 8.1.1 资源准备 1、CentOS联网 配置CentOS能连接外网。Linux虚拟机 ping www.baidu.com 是畅通的。 注意:采用root角色编译,减少文件夹权限出现问题。2、jar包准备(ha
转载
2020-05-30 18:44:00
203阅读
2评论
第1章 Hive入门 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计(分析数据的框架)。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序。 1)Hive
转载
2020-05-30 18:37:00
286阅读
2评论
第10章 Hive实战之谷粒影音 10.1 需求描述 统计硅谷影音视频网站的常规指标,各种TopN指标: 统计视频观看数Top10 统计视频类别热度Top10 统计出视频观看数最高的20个视频的所属视频类别以及对应视频类别的个数 统计视频观看数Top50所关联视频的所属类别Rank 统计每个类别中的
转载
2020-05-30 18:46:00
267阅读
2评论
第6章 查询 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select查询语句语法: [WITH CommonTableExpression (, CommonTableExpression)*] (Note: On
转载
2020-05-30 18:42:00
274阅读
2评论
一、知识梳理 1.1、背景表结构 在讲解中我们需要贯串一个例子,所以需要设计一个情景,对应还要有一个表结构和填充数据。如下:有 3 个字段,分别为 personId 标识某一个人,company 标识一家公司名称,money 标识该公司每年盈利收入(单位:万元人民币) 建表并导入数据: create
转载
2020-05-30 18:50:00
322阅读
2评论
第4章 DDL数据定义 4.1 创建数据库 1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。 hive (default)> create database db_hive; 2)避免要创建的数据库已经存在错误,增加 if not exist
转载
2020-05-30 18:39:00
216阅读
2评论
第一章、hive入门 一、hive入门手册 1.什么是数据仓库 1.1数据仓库概念 对历史数据变化的统计,从而支撑企业的决策。比如:某个商品最近一个月的销量,预判下个月应该销售多少,从而补充多少货源。 1.2传统数据仓库面临的挑战 (1)无法满足快速增长的海量数据存储需求 (2)无法有效处理不同类型
转载
2020-05-13 16:23:00
1578阅读
2评论
1.安装Hadoop 和Spark 进入 Linux 系统,参照本教程官网“实验指南”栏目的“Hadoop 的安装和使用”,完成 Hadoop 伪分布式模式的安装。完成 Hadoop 的安装以后,再安装 Spark(Local 模式)。2.HDFS 常用操作使用 hadoop 用户名登录进入 Linux 系统,启动 Hadoop,参照相关 Hadoop 书籍或网络资料,或者也可以参考本教程官网的“
转载
2023-08-29 14:04:19
74阅读
hadoop经典案例————单词统计目录hadoop经典案例————单词统计1. 打开HDFS的UI界面,查看是否有数据文件,默认是没有数据文件。2. 准备文本文件,在Linux系统上编辑一个文本文件,然后上传到HDFS上。2.1 在/export目录下新建data目录,存放数据文件 2.2 在HDFS上创建目录2.3 将word.txt文件上传到input文件夹下3. 运行hadoop
转载
2024-01-09 22:17:30
50阅读
文章目录前言一、Hadoop组件二、Hadoop集群搭建三、Hadoop运维(一)Hive运维(二)利用sqoop将关系型数据库数据接入HDFS(三)利用sqoop将HDFS文件导出至关系型数据库四、mapreduce五、yarn六、HDFS七、Hadoop常用命令 前言记录Hadoop学习与实战过程。持续更新中。一、Hadoop组件组件名称主要功能hdfs分布式文件存储mapreduce批量处
转载
2023-11-18 23:27:11
70阅读
# Hadoop实战入门:从理论到实践
Hadoop是一个开源的分布式计算框架,它允许在普通硬件上存储和处理大量数据。本文将从Hadoop的基本概念出发,通过代码示例和甘特图,帮助读者快速入门Hadoop实战。
## Hadoop简介
Hadoop的核心是HDFS(Hadoop Distributed File System)和MapReduce。HDFS是一个分布式文件系统,它将数据存储在
原创
2024-07-27 06:59:14
46阅读
1. 概述 1.1 hive的特征: 可以通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析; 它可以使已经存储的数据结构化; 可以直接访问存储在Apache HDFS或其他数据存储系统(如Apache HBase)中的文件; Hive除了支持MapRe
转载
2020-05-07 11:06:00
98阅读
Hadoop入门文档,比较实用。详细文档在附件中。。。
1 概述
1.1 什么是Hadoop?
1.2 为什么要选择Hadoop?
1.2.1 &
原创
2012-03-23 14:57:11
1887阅读
数据库操作 查看所有数据库 show databases; 1 查看当前使用的数据库 select database(); 1 创建数据库 create databases 数据库名 charset=utf8; 5.删除数据库 drop database 数据库名 1 6 .使用数据句库 use d
转载
2020-05-20 17:56:00
245阅读
2评论
上一节课我们一起学习了RPC简单用法,这节课我们来学习MapReduce,MapReduce可谓是Hadoop当中非常重要的一部分,不学好这部分,我们就无法真正学会Haoop。 那么,首先我们来看一个MapReduce最简单的例子,如下图所示,假如我们要
转载
2024-06-05 15:38:16
15阅读
第1章 Spark Streaming 概述 1.1 什么是 Spark Streaming Spark Streaming 类似于 Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming 有高吞吐量和容错能力强等特点。Spark Streaming 支持的
转载
2020-05-29 18:11:00
366阅读
2评论
hadoop的各类安装和部署文档布满整个网络,安装配置也很容易,感觉对整个过程以及各配置文档理解才是最重要的。本次在操作pezy的一体机时,结合实际使用整理hadoop的一些知识供日后使用(当然多是理解之后直接引入网络上的资料)。一、网络名词copyNameNode:
NameNode 是一个通常在 HDFS 实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。
转载
2023-07-25 18:31:58
71阅读