目录​​1 Azkaban简介​​​​2 工作流​​​​2.1 为什么需要工作流调度系统​​​​2.2 工作流调度实现方式​​​​2.3 工作流调度工具之间对比​​​​3 Azkaban 调度器​​​​3.1 Azkaban 介绍​​​​3.2 Azkaban 原理架构​​​​3.3 Azkaban 三种部署模式​​​​3.3.1 solo server mode​​​​3.3.2 two-ser
原创 2021-04-11 19:52:48
190阅读
目录​​1 Apache Sqoop​​​​1.1 sqoop 介绍​​​​2 Sqoop 导入​​​​2.1 全量导入 mysql 表数据到 HDFS​​​​2.2 全量导入 mysql 表数据到 HIVE​​​​2.2.1 方式一:先复制表结构到 hive 中再导入数据​​​​2.2.2 方式二:直接复制表结构数据到 hive 中​​​​2.3 导入表数据子集(where 过滤)​​​​2.4
原创 2021-04-11 19:15:56
453阅读
目录​​1 Flume 安装部署​​​​1.1 安装地址​​​​1.2 安装部署​​​​2 Flume 入门案例​​​​2.1 监控端口数据官方案例​​​​2.2 实时监控单个追加文件​​​​2.3 实时监控目录下多个新文件​​​​2.4 实时监控目录下的多个追加文件​​ 1 Flume 安装部署 1.1 安装地址(1)Flume 官网地址:http://flume.apache.org/ (2)
原创 2021-04-11 19:34:12
197阅读
目录​​1 环境准备​​​​2 源码编译​​​​3 Spark 安装​​​​4 运行spark-shell​​​​5 词频统计WordCount​​​​5.1 MapReduce WordCount​​​​5.2 Spark WordCount​​​​5.3 编程实现​​​​5.4 监控页面​​​​6 运行圆周率​​ 1 环境准备目前Spark最新稳定版本:2.4.x系列,官方推荐使用的版本,也是
原创 2021-05-04 23:47:25
339阅读
本篇文档是介绍如何快速使用spark,首先将会介绍下spark在shell中的交互api,然后展示下如何使用java,scala,python等语言编写应用。可以查看​​编程指南​​了解更多的内容。为了良好的阅读下面的文档,最好是结合实际的练习。首先需要​​下载spark​​,然后安装hdfs,可以下载任意版本的hdfs。Spark Shell 交互基本操作Spark Shell提供给用户一个简单
转载 2016-09-21 23:03:00
100阅读
2评论
目录​​1 SparkSession 应用入口​​​​2 词频统计WordCount​​​​2.1 基于DSL编程​​​​2.2 基于SQL编程​​​​3 数据处理分析​​​​3.1 基于DSL分析​​​​3.2 基于SQL分析​​ 1 SparkSession 应用入口Spark 2.0开始,应用程序入口为SparkSession,加载不同数据源的数据,封装到DataFrame/Dataset集
原创 2021-08-25 23:21:37
479阅读
目录1 Flume 定义2 Flume 基础架构2.1 Agent2.2 Source2.3 Sink2.4 Channel2.5 Event1 Flume 定义Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。2 Flume 基础架构Flume 组成架构如图 1-1 所示:图 1-1 Flume 组成架构下面我们来详细介绍一下 Flume 架构中的组件:2.1 AgentAgent 是一个 JV
原创 2021-03-14 22:49:41
106阅读
本篇文档是介绍如何快速使用spark,首先将会介绍下spark在shell中的交互api,然后展示下如何使用java,scala,python等语言编写应用。可以查看编程指南了解更多的内容。为了良好的阅读下面的文档,最好是结合实际的练习。首先需要下载spark,然后安装hdfs,可以下载任意版本的hdfs。Spark Shell 交互基本操作Spark Shell提供给用户一...
转载 2021-06-10 20:54:14
141阅读
本篇文档是介绍如何快速使用spark,首先将会介绍下spark在shell中的交互api,然后展示下如何使用java,scala,python等语言编写应用。可以查看编程指南了解更多的内容。为了良好的阅读下面的文档,最好是结合实际的练习。首先需要下载spark,然后安装hdfs,可以下载任意版本的hdfs。Spark Shell 交互基本操作Spark Shell提供给用户一...
转载 2021-06-10 20:54:13
145阅读
#好书推荐##好书奇遇季#《Hadoop 3大数据技术快速入门大数据技术丛书)》,京东当当天猫都有发售。本书写得通俗易懂、快速理解、无痛入门,适合零基础开发人员以及大数据岗位应聘人员。https://item.jd./13398718.html 当前已完全进入大数据时代,人们忽然发现积累十几年的老数据里竟然埋着巨大的财富。大数据技术无处不在,正在迅速深度融入金融、汽车、零售、餐饮
原创 2021-11-23 09:32:32
539阅读
大数据入门系列1:认识大数据
原创 2021-09-01 13:39:52
263阅读
有志青年图 by:wk@杭州-西湖关于作者:一枚奋青,热衷代
转载 2022-12-11 22:14:48
88阅读
窗口函数的概念 首先,需要认识到,窗口函数并不是只有 hive 才有的,SQL 语法标准中,就有窗口函数
原创 2021-09-01 13:54:58
449阅读
1.Dubbox简介1.1什么是SOA架构SOA是Service-Oriented Architecture的首字母简称,它是一种支持面向服务的架构样式。从服务、基于服务开发和服务的结果来看,面向服务是一种思考方式。其实SOA架构更多应用于互联网项目开发。为什么互联网项目会采用SOA架构呢?随着互联网的发展,网站应用的规模不断扩大,常规的垂直应用架构已无法应对,分布式服务架构以及流动计算架构势在必行,迫切需一个治理系统确保架构有条不紊的演进。我们看一下开发架构的演进过程。如下图: 单一应用架构
原创 2021-06-21 10:32:27
198阅读
1.Dubbox简介1.1什么是SOA架构SOA是Service-Oriented Architecture的首字母简称,它是一种支持面向服务的架构样式。从服务、基于服务开发和服务的结果来看,面向服务是一种思考方式。其实SOA架构更多应用于互联网项目开发。为什么互联网项目会采用SOA架构呢?随着互联网的发展,网站应用的规模不断扩大,常规的垂直应用架构已无法应对,分布式服务架构以及流动计算架构势在必行,迫切需一个治理系统确保架构有条不紊的演进。我们看一下开发架构的演进过程。如下图: 单一应用架构
原创 2022-04-20 16:48:55
114阅读
方向比努力重要
原创 2021-09-01 13:39:32
417阅读
数据仓库必备
原创 2021-09-01 13:56:54
204阅读
官网sprng-hadoophttps://spring.io/projects/spring-hadoop添加依赖<dependencies> <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-hadoop</artifactId> <version>
原创 2021-08-26 09:24:18
610阅读
强大,膜拜
原创 2021-09-01 11:54:11
100阅读
Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。“90%的世界数据在过去的几年中产生”。由于新技术,设备和类似的社交网站通信装置的出现,人类产生的数据量每年都在迅速增长。美国从一开始的时候到2003年产生的数据量为5十亿千兆字节。如果以堆放的数据磁盘的形式,它可以填补整个
原创 2018-07-12 16:57:21
487阅读
1点赞
  • 1
  • 2
  • 3
  • 4
  • 5