第1章 Sqoop 简介 Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,...) 间进行数据的高校传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导入到 Hadoop 的 HDFS 中
转载
2020-05-30 19:07:00
569阅读
2评论
第1章 Oozie 的简介 Oozie 英文翻译为:驯象人。一个基于工作流引擎的开源框架,由 Cloudera 公司贡献给 Apache,提供对 Hadoop MapReduce、Pig Jobs 的任务调度与协调。Oozie 需要部署到 Java Servlet 容器中运行。主要用于定时调度任务,
转载
2020-05-30 20:17:00
653阅读
2评论
第1章 Spark Streaming 概述 1.1 什么是 Spark Streaming Spark Streaming 类似于 Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming 有高吞吐量和容错能力强等特点。Spark Streaming 支持的
转载
2020-05-29 18:11:00
366阅读
2评论
人生如戏,每个人都是自己戏中的主角。重要的是如何创作自己人生的剧本。
珍视自己,一天一天、一瞬间一瞬间,极度认真地过好,你的人生即刻就会呈现灿烂的景象。
原创
2023-04-06 12:46:44
65阅读
本文介绍了Python网络爬虫的入门和基础知识,涵盖了Requests和Beautiful Soup库的使用,以及一个简单的爬虫示例。网络爬虫
原创
2023-10-16 16:56:04
108阅读
有人说,“一年之计在于春”,而我们要说,“一年之计在于冬”,没有冬天的积蓄,
原创
2023-04-03 14:37:53
63阅读
一 概述 1.1 为什么需要工作流调度系统 1)一个完整的数据分析系统通常都是由大量任务单元组成: shell 脚本程序,java 程序,mapreduce 程序、hive 脚本等。2)各任务单元之间存在时间先后及前后依赖关系。3)为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行
转载
2020-05-30 19:09:00
1434阅读
2评论
第一章 计算机基础知识 1.1 课程介绍 课程名称:Python 基础视频教程讲师:尚硅谷教育,李立超(lichao.li@foxmail.com)面向的层次:From Zero to Hero(从入门到精通)学习方法:认真听讲,多敲代码必备技能: ① 计算机基本操作 ② 打字的速度 ③ 英语(能阅
转载
2020-05-31 15:00:00
227阅读
2评论
一、Scala概述 1. Scala简介 Scala是一种针对JVM将函数和面向对象技术组合在一起的编程语言。所以Scala必须要有JVM才能运行,和Python一样,Scala也是可以面向对象和面向函数的。Scala编程语言近来抓住了很多开发者的眼球。它看起来像是一种纯粹的面向对象编程语言,而又无
转载
2020-06-01 18:22:00
88阅读
2评论
第10章 Hive实战之谷粒影音 10.1 需求描述 统计硅谷影音视频网站的常规指标,各种TopN指标: 统计视频观看数Top10 统计视频类别热度Top10 统计出视频观看数最高的20个视频的所属视频类别以及对应视频类别的个数 统计视频观看数Top50所关联视频的所属类别Rank 统计每个类别中的
转载
2020-05-30 18:46:00
267阅读
2评论
第6章 查询 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select查询语句语法: [WITH CommonTableExpression (, CommonTableExpression)*] (Note: On
转载
2020-05-30 18:42:00
274阅读
2评论
我们到Apache Cassandra的官方网站下载最新版本的Cassandra,在这里写作时最新版本的Cassandra为3.11.4。ApacheCassandra可以在Linux,Unix,Mac OS以及Windows上进行安装,为了可以起见,此处以CentOS为例进行介绍。 为什么会诞生
转载
2020-06-04 09:58:00
243阅读
2评论
基础篇
场景实现篇
负载均衡和缓存服务
常见问题
转载
2021-07-26 15:19:55
246阅读
一.zookeeper介绍ZooKeeper是一个开源的分布式协调服务,由雅虎创建,是GoogleChubby的开源实现。分布式应用程序可以基于ZooKeeper实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、配置维护,名字服务、分布式同步、分布式锁和分布式队列等功能。数据模型:ZooKeeper允许分布式进程通过共享的层次结构命名空间进行相互协调,这与标
原创
2019-04-05 22:33:01
1962阅读
1. 简介 Java是一门面向对象编程语言,不仅吸收了C++语言的各种优点,还摒弃了C++里难以理解的多继承、指针等概念,因此Java语言具有功能强大和简单易用两个特征。Java语言作为静态面向对象编程语言的代表,极好地实现了面向对象理论,允许程序员以优雅的思维方式进行复杂的编程 [1] 。Java具有简单性、面向对象、分布式、健壮性、安全性、平台独立与可移植性、多线程、动态性等特点 [2] 。
转载
2021-06-07 00:11:00
181阅读
2评论
nginx可以使用各平台的默认包来安装,本文是介绍使用源码编译安装,包括具体的编译参数信息。
正式开始前,编译环境gcc g++ 开发库之类的需要提前装好,这里默认你已经装好。
ububtu平台编译环境可以使用以下指令
1
2
apt-get install build-essential
apt-get install libtool
centos平台编译环境使用如下指令
安
转载
2021-06-15 16:10:14
318阅读
## MongoDB入门到实战
### 概述
在本文中,我将会教给你如何从零开始学习和使用MongoDB,并且通过实战案例来巩固所学的知识。MongoDB是一种非关系型数据库,它以文档的方式存储数据,并且具有高可扩展性和灵活性。通过学习MongoDB,你将能够更加高效地处理大量的数据,并且在开发过程中能够更好地满足业务需求。
### 流程图
```mermaid
flowchart TD
原创
2024-01-18 09:46:35
29阅读
第8章 压缩和存储(Hive高级) 8.1 Hadoop源码编译支持Snappy压缩 8.1.1 资源准备 1、CentOS联网 配置CentOS能连接外网。Linux虚拟机 ping www.baidu.com 是畅通的。 注意:采用root角色编译,减少文件夹权限出现问题。2、jar包准备(ha
转载
2020-05-30 18:44:00
203阅读
2评论
第1章 Hive入门 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计(分析数据的框架)。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序。 1)Hive
转载
2020-05-30 18:37:00
286阅读
2评论
一、知识梳理 1.1、背景表结构 在讲解中我们需要贯串一个例子,所以需要设计一个情景,对应还要有一个表结构和填充数据。如下:有 3 个字段,分别为 personId 标识某一个人,company 标识一家公司名称,money 标识该公司每年盈利收入(单位:万元人民币) 建表并导入数据: create
转载
2020-05-30 18:50:00
322阅读
2评论