一 概述 1.1 为什么需要工作流调度系统 1)一个完整的数据分析系统通常都是由大量任务单元组成: shell 脚本程序,java 程序,mapreduce 程序、hive 脚本等。2)各任务单元之间存在时间先后及前后依赖关系。3)为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行
转载
2020-05-30 19:09:00
1430阅读
2评论
第1章 Sqoop 简介 Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,...) 间进行数据的高校传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导入到 Hadoop 的 HDFS 中
转载
2020-05-30 19:07:00
569阅读
2评论
第1章 Oozie 的简介 Oozie 英文翻译为:驯象人。一个基于工作流引擎的开源框架,由 Cloudera 公司贡献给 Apache,提供对 Hadoop MapReduce、Pig Jobs 的任务调度与协调。Oozie 需要部署到 Java Servlet 容器中运行。主要用于定时调度任务,
转载
2020-05-30 20:17:00
650阅读
2评论
第1章 Spark Streaming 概述 1.1 什么是 Spark Streaming Spark Streaming 类似于 Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming 有高吞吐量和容错能力强等特点。Spark Streaming 支持的
转载
2020-05-29 18:11:00
366阅读
2评论
我们到Apache Cassandra的官方网站下载最新版本的Cassandra,在这里写作时最新版本的Cassandra为3.11.4。ApacheCassandra可以在Linux,Unix,Mac OS以及Windows上进行安装,为了可以起见,此处以CentOS为例进行介绍。 为什么会诞生
转载
2020-06-04 09:58:00
243阅读
2评论
基础篇
场景实现篇
负载均衡和缓存服务
常见问题
转载
2021-07-26 15:19:55
246阅读
一.zookeeper介绍ZooKeeper是一个开源的分布式协调服务,由雅虎创建,是GoogleChubby的开源实现。分布式应用程序可以基于ZooKeeper实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、配置维护,名字服务、分布式同步、分布式锁和分布式队列等功能。数据模型:ZooKeeper允许分布式进程通过共享的层次结构命名空间进行相互协调,这与标
原创
2019-04-05 22:33:01
1962阅读
1. 简介 Java是一门面向对象编程语言,不仅吸收了C++语言的各种优点,还摒弃了C++里难以理解的多继承、指针等概念,因此Java语言具有功能强大和简单易用两个特征。Java语言作为静态面向对象编程语言的代表,极好地实现了面向对象理论,允许程序员以优雅的思维方式进行复杂的编程 [1] 。Java具有简单性、面向对象、分布式、健壮性、安全性、平台独立与可移植性、多线程、动态性等特点 [2] 。
转载
2021-06-07 00:11:00
181阅读
2评论
nginx可以使用各平台的默认包来安装,本文是介绍使用源码编译安装,包括具体的编译参数信息。
正式开始前,编译环境gcc g++ 开发库之类的需要提前装好,这里默认你已经装好。
ububtu平台编译环境可以使用以下指令
1
2
apt-get install build-essential
apt-get install libtool
centos平台编译环境使用如下指令
安
转载
2021-06-15 16:10:14
318阅读
## MongoDB入门到实战
### 概述
在本文中,我将会教给你如何从零开始学习和使用MongoDB,并且通过实战案例来巩固所学的知识。MongoDB是一种非关系型数据库,它以文档的方式存储数据,并且具有高可扩展性和灵活性。通过学习MongoDB,你将能够更加高效地处理大量的数据,并且在开发过程中能够更好地满足业务需求。
### 流程图
```mermaid
flowchart TD
原创
2024-01-18 09:46:35
29阅读
第8章 压缩和存储(Hive高级) 8.1 Hadoop源码编译支持Snappy压缩 8.1.1 资源准备 1、CentOS联网 配置CentOS能连接外网。Linux虚拟机 ping www.baidu.com 是畅通的。 注意:采用root角色编译,减少文件夹权限出现问题。2、jar包准备(ha
转载
2020-05-30 18:44:00
203阅读
2评论
第1章 Hive入门 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计(分析数据的框架)。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序。 1)Hive
转载
2020-05-30 18:37:00
286阅读
2评论
一、Scala概述 1. Scala简介 Scala是一种针对JVM将函数和面向对象技术组合在一起的编程语言。所以Scala必须要有JVM才能运行,和Python一样,Scala也是可以面向对象和面向函数的。Scala编程语言近来抓住了很多开发者的眼球。它看起来像是一种纯粹的面向对象编程语言,而又无
转载
2020-06-01 18:22:00
88阅读
2评论
一、知识梳理 1.1、背景表结构 在讲解中我们需要贯串一个例子,所以需要设计一个情景,对应还要有一个表结构和填充数据。如下:有 3 个字段,分别为 personId 标识某一个人,company 标识一家公司名称,money 标识该公司每年盈利收入(单位:万元人民币) 建表并导入数据: create
转载
2020-05-30 18:50:00
322阅读
2评论
第4章 DDL数据定义 4.1 创建数据库 1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。 hive (default)> create database db_hive; 2)避免要创建的数据库已经存在错误,增加 if not exist
转载
2020-05-30 18:39:00
216阅读
2评论
第10章 Hive实战之谷粒影音 10.1 需求描述 统计硅谷影音视频网站的常规指标,各种TopN指标: 统计视频观看数Top10 统计视频类别热度Top10 统计出视频观看数最高的20个视频的所属视频类别以及对应视频类别的个数 统计视频观看数Top50所关联视频的所属类别Rank 统计每个类别中的
转载
2020-05-30 18:46:00
267阅读
2评论
第6章 查询 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select查询语句语法: [WITH CommonTableExpression (, CommonTableExpression)*] (Note: On
转载
2020-05-30 18:42:00
274阅读
2评论
目录一、安装Docker1. 安装必要的包2. 设置镜像的仓库3. 更新软件包的索引4. 安装docker5. 启动docker6. 测试 hello-world7. 查看的hello-world镜像8. 卸载docker9. 配置阿里云镜像加速 二、Docker 常用命令镜像命令(1)docker images (2)docker search (3)docker
转载
2024-01-24 09:33:15
117阅读
Flink学习笔记 一.简介 1.定义: 针对流数据和批数据的分布式处理引擎。它主要是由 Java 代码实现。。 2.应用场景: 流数据:把所有任务当成流来处理,处理观察和分析连续事件产生的数据。 3.重要角色: ①Client :用来提交任务给JobManager。 ②JobMan
转载
2020-05-07 10:11:00
100阅读
2评论
摘要:本文主要是实战为主,阅读前需要你对docker有基本的认识。很早以前就学了docker,一直以来光是用,也没仔细写下笔记,导致用过一段时间后,一些命令又忘记了。俗话说,好记性不如烂笔头,索性,写成笔记,以后当做工具快速查询使用。希望对其他人也能有所帮助。1.安装 使用官方安装脚本自动安装安装命令如下:curl -fsSL https://get.docker.com | bash -s do
转载
2023-07-20 13:56:09
50阅读