crontab定时任务不利于平时的监控,决定使用一种新的调度框架1.安装依赖# 避免连接密码以明文形式存储 pip3 install cryptography pip3 install paramiko # AttributeError: module 'enum' has no attribute 'IntFlag' pip3 uninstall enum34 pip3 install c
转载 2024-09-13 20:52:08
64阅读
Docker容器化(2):持续集成与容器管理1 DockerMaven插件2 持续集成工具-Jenkins2.1 什么是持续集成2.2 Jenkins简介2.3 Jenkins安装2.3.1 JDK安装2.3.2 Jenkins安装与启动2.4 Jenkins插件安装2.5 全局工具配置2.5.1 安装Maven与本地仓库2.5.2 全局工具配置2.6 代码上传至Git服务器2.6.1 Gogs
Docker容器化(2):持续集成与容器管理1 DockerMaven插件2 持续集成工具-Jenkins2.1 什么是持续集成2.2 Jenkins简介2.3 Jenkins安装2.3.1 JDK安装2.3.2 Jenkins安装与启动2.4 Jenkins插件安装2.5 全局工具配置2.5.1 安装Maven与本地仓库2.5.2 全局工具配置2.6 代码上传至Git服务器2.6.1 Gogs
目录基于docker的airflow的构建主要记录排错手段和几个巨坑:调度 && 失败告警(邮件 && 微信) 基于docker的airflow的构建基于docker安装的官网教程,官网是入门的第一手好资料,虽说是官网,但大家环境各部相同,坑也是五花八门主要记录排错手段和几个巨坑:手段 1. 如果pod出现 unhealthy , 请用docker inspect
转载 2024-10-28 22:38:28
29阅读
一、如何制作AirFlow容器 1、安装docker环境 基于centos环境下进行部署,建议在centos6或者centos7的环境下 1.1、下载docker安装包 下载地址:https://download.docker.com/linux/static/stable/x86_64/ 推荐使用 ...
转载 2021-09-14 10:09:00
1377阅读
2评论
安全狗应急响应中心监测到,Apache发布安全公告,修复了Apache Airflow Docker Provider中的一个远程代码执行漏洞,漏洞编号:CVE-2022-38362。 安全狗建议广大用户及时做好资产自查以及漏洞修复工作。漏洞描述Apache Airflow Docker Provider在3.0以下版本提供给的DAG(有向无环图)示例中存在远程代码执行漏洞,攻击者可利用
本人的环境是基于centos7下来安装的 一、安装docker 下载docker安装包,下载地址:https://download.docker.com/linux/static/stable/x86_64/ 下载到本地后解压 tar -zxf docker-18.09.6.tgz 将解压出来的do
原创 2022-06-17 22:53:16
676阅读
简介本文档将展示如何部署数据仓库以及简单展示其使用场景和方式。环境软件版本Centos7.2CDH5.15.0Hadoop2.6.0Airflow1.10.9Python2.7.5 (系统自带)3.7.0 (需要安装)MySQL5.7.28Redis4.0.14Sqoop1.4.6模块安装AirflowAirflow是一个编排、调度和监控workflow的平台,由Airbnb开源,现在在Apach
1、说明依赖python环境、基于pip安装apache-airflow安装过程可能会缺少系统依赖报错如gcc、mysql-devel 之类, 缺什么就 yum install 什么即可2、airflow + celery架构3、集群规划服务器hadoop100服务器hadoop101服务器hadoop102web serverVschedulerVworkerVVV注意编写DAG文件需要保证在集
直接安装For MacMac 或者 Linux 用户安装比较简单,直接根据官网给的安装步骤即可完成:# airflow needs a home, ~/airflow is the default, # but you can lay foundation somewhere else if you prefer # (optional) export AIRFLOW_HOME=~/airflow
转载 2024-05-29 10:59:51
88阅读
目录 导入模块 设置默认参数 实例化一个DAG 任务 Templating with Jinja 设置依赖关系 简要重述以上内容 测试 运行脚本 命令行元数据验证 测试 backfill 导入模块 # 导入所需的模块 # DAG用来实例化DAG对象,注意仅仅只是定义了一个对象,而不是进行真正的数据处 ...
转载 2021-08-03 22:30:00
477阅读
2评论
基于airflow官方镜像制作自己的镜像,如给镜像安装py
原创 2022-06-01 05:11:27
159阅读
KubernetesExecutor for Airflow Scale Airflow natively on Kubernetes数据平台作业Sphinx
原创 2022-10-28 13:55:46
169阅读
一、调度系统1.1 为什么需要调度系统?因为⼤数据的任务多、复杂化就会有不同的需求:单个任务串联、并联任务要⽀持⼦节点、依赖节点数据抽取任务失败重试机制补数机制发邮件等任务种类多、需求多样化所以说我们需要调度系统1.2 调度系统有⼏多⼯作之后,很多童鞋和我⼀样最先接触到的应该是Linux⾃带的定期执⾏程序命令 crontab,使⽤简单、运⾏稳定、上⼿容易但是也有⾃⼰的缺点⽐如任务多了之后⽆法管 理
转载 2024-03-18 09:13:49
265阅读
airflow-api 插件的安装与使用介绍 1. 安装插件airflow-rest-api 1)获取wget https://github.com/teamclairvoyant/airflow-rest-api-plugin/archive/master.zip2)将plugin文件夹下的内容放入airflow/plugin/下,若不存在则新建3)重启airflow2. api使用介
转载 2024-01-23 21:48:20
207阅读
Airflow REST API的使用 Airflow-2.2.1提供了稳定的REST API,这样可以通过这些REST API来对airflow中的任务进行操作。airflow中的REST接口的说明可以查看这里的文档。1.配置并创建用户 修改配置文件 修改配置文件 修改配置文件airflow.cfg,把auth_backend选项的值修改成以下值。auth_backend = airflow.a
转载 2023-12-12 12:43:09
77阅读
数据处理逻辑多,脚本相互依赖强,运维管理监测难,怎么办?!为了解决这些问题,最近比较深入研究Airflow的使用方法,重点参考了官方文档和Data Pipelines with Apache Airflow,特此笔记,跟大家分享共勉。前面文章我们已经讲到了Airflow的搭建这里主要讲一下Airflow的其他特性。DAG配置表中的变量DAG_FOLDER是DAG文件存储的地址,DAG文件是定义任务
转载 2024-03-11 11:43:29
183阅读
简介Apache-Airflow 是Airbnb开源的一款数据流程工具,目前是Apache孵化项目。以非常灵活的方式来支持数据的ETL过程,同时还支持非常多的插件来完成诸如HDFS监控、邮件通知等功能。Airflow支持单机和分布式两种模式,支持Master-Slave模式,支持Mesos等资源调度,有非常好的扩展性。被大量公司采用。Airflow提供了一系列的python SDK,用户
转载 2023-09-05 16:51:12
124阅读
airflowAirflow是一个分布式任务调度框架,可以把具有上下级依赖关系的工作流组装成一个有向无环图; 有向无环图长得就如下一般:说的云里雾里的,那么Airflow究竟是什么呢?简单说,airflow就是一个平台,你可以在这个平台上创建、管理、执行自定义的工作流,这里的工作流就是前面所说的有向无环图,如上图所示一样,有向无环图是由一系列单独运行的task组合而成,任务之间的前后排列取决于任务
1. airflow简介 2. 相关概念 2.1 服务进程 2.1.1. web server 2.1.2. scheduler 2.1.3. worker 2.1.4. celery flower 2.2 相关概念 2.2.1. dag 2.2.2.task 2.2.3.Operator 2.2.4 schedul
转载 2024-03-28 09:18:44
277阅读
  • 1
  • 2
  • 3
  • 4
  • 5