文章目录大数据技术之DolphinScheduler第1章 DolphinScheduler简介1.1 DolphinScheduler概述1.2 DolphinScheduler核心架构第2章 DolphinScheduler部署说明2.1 软硬件环境要求2.1.1 操作系统版本要求2.1.2 服务器硬件要求2.2 部署模2.2.1 单机模式2.2.2 伪集群模式2.2.3 集群模式第3章 D
转载 2024-06-03 23:00:51
231阅读
Apache DolphinScheduler(incubator)需要的sudo,还可以这么玩,长见识了! 在新一代大数据任务调度 - Apache DolphinScheduler(以下简称dolphin) 官网中部署安装需要对部署OS用户配置sudo且免密echo 'dolphinscheduler ALL=(ALL) NOPASSWD: NOPASSWD: ALL' &gt
# 了解HiveCLI ## 什么是HiveCLI HiveCLI 是一个用于交互式查询 Apache Hive 数据仓库的命令行工具。Hive是一个基于 Hadoop 的数据仓库工具,用于处理大规模的数据,支持SQL查询语言。HiveCLI 提供了一个简单的方式来执行 SQL 查询、创建数据库、表等操作。 ## HiveCLI 的使用 ### 连接到 Hive 数据库 要连接到 Hiv
原创 2024-07-11 04:23:37
63阅读
Tor的按钮进行网络攻击/ 测试时基本不愿透露姓名的方便。*确保你没有运行的服务记录,而你是Tor或危险之中被恶毒的个人截获 pasive侦察插件,让你一键访问的被动网络侦察/ OSINT工具,很好的一个伟大的插件。发现更多关于网站/在线服务好。此外,还包括谷歌Dorks。NoScript的无脚本是必不可少的,无论如果你正在做的Web应用程序渗透测试或只是浏览净。它停止在您的浏览器中加载的脚本-
# 禁用 Hive CLI 的指南 在大数据处理的生态系统中,Apache Hive 被广泛使用,而 Hive CLI(命令行接口)为用户提供了一个与 Hive 进行交互的简单方法。不过,有时出于安全原因或为了促使用户采用更安全的方式(如通过 JDBC 或 Beeline 进行连接),禁用 Hive CLI 是必要的。本文将指导你如何成功地完成这一操作。 ## 实现流程 以下是禁用 Hive
原创 2024-10-01 07:32:57
81阅读
## 使用DolphinScheduler执行Hive CLI任务 在数据处理和分析领域,Hive是一个常用的数据仓库工具,用于处理大规模数据。而DolphinScheduler是一个分布式的大数据任务调度系统,可以帮助用户管理和调度数据处理任务。在本文中,我们将介绍如何使用DolphinScheduler来执行Hive CLI任务。 ### DolphinScheduler简介 Dolph
原创 2024-06-30 05:01:16
219阅读
# 使用 DolphinScheduler 调度 Spark 作业的完整指南 DolphinScheduler 是一款功能强大的开源工作流调度和任务管理平台,而 Spark 是一个广泛使用的大数据处理框架。将这两者结合,可以实现高效的数据处理流程。本指南将帮助你了解如何在 DolphinScheduler 中配置和调度 Spark 作业。 ## 流程概述 下面是通过 DolphinSched
原创 2024-08-07 05:54:44
152阅读
Dolphinscheduler3.0源码分析前言1 DolphinScheduler的设计与策略1.1 分布式设计1.1.1 中心化1.1.2 去中心化1.2 DophinScheduler架构设计1.3 容错问题1.3.1 宕机容错1.3.2 失败重试1.4 远程日志访问2 DolphinScheduler源码分析2.1 工程模块介绍与配置文件2.1.1 工程模块介绍2.1.1 配置文件2.
引子令牌与密码的区别令牌(token)与密码(password)的作用是一样的,都可以进入系统,但是有三点差异。(1)令牌是短期的,到期会自动失效,用户自己无法修改。密码一般长期有效,用户不修改,就不会发生变化。(2)令牌可以被数据所有者撤销,会立即失效。以上例而言,屋主可以随时取消快递员的令牌。密码一般不允许被他人撤销。(3)令牌有权限范围(scope),比如只能进小区的二号门。对于网络服务来说
1. 简介在一些项目中,处于安全性的要求,一般不将密码,key等放入到配置文件中。然而这些代码又是上传在 git等平台上。为了方便管理。一般采用系统变量的方式来实现。从而实现配置和代码分开。2. 安装pip install python-dotenv3. 使用目录结构及代码. ├── .env └── demo.py.env 内容REDIS_HOST="127.0.0.1" PWD="/home/
### ds源码 tar -zxvf apache-dolphinscheduler-2.0.5-src.tar.gz cd apache-dolphinscheduler-2.0.5-src/docker/docker-swarm ### 下载ds镜像 docker pull dolphinscheduler.docker.scarf.sh/apache/dolphinscheduler:lat
转载 2024-08-06 13:48:11
302阅读
1、HQL 是如何转换为MR任务1.1、Hive 的核心组成介绍用户接口:Client CLI(command-line interface)、JDBC/ODBC(jdbc 访问 hive)、WEBUI(浏览器访问 hive)元数据:Metastore 元数据包括:表名、表所属的数据库(默认是 default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等; 默认存储在自
转载 2023-09-04 16:26:42
52阅读
# DolphineScheduler 修改Spark RPC端口 ## 概述 DolphinScheduler是一个分布式的大数据任务调度系统,它提供了一套完整的任务调度和运维功能,可以实现对Spark、Flink、Hive、MR等各种任务的调度和管理。在DolphinScheduler中,Spark任务的通信机制是通过RPC(Remote Procedure Call,远程过程调用)来实现
原创 2024-01-30 06:40:40
178阅读
spark 核心spark coreRDD创建 >>> RDD转换 >>> RDD缓存 >>> RDD行动 >>> RDD输出RDD[Resilient Distributed Dataset]它是一个弹性分布式数据集,具有良好的通用性、容错性与并行处理数据的能力,为用户屏蔽了底层对数据的复杂抽象和处理,为用户提供了一组方便的
说明该文档适用于dolphinscheduler 3.1.3-release版本。一 环境准备需要使用的环境包括JDK1.8,以及Maven 3.6以上的版本,这里使用低于3.6版本的Maven也可以调试运行,不过在打包的时候会有报错,最好使用高版本的maven。二 导入源码并修改配置2.1 导入项目项目地址:DolphinScheduler: ??? Apache DolphinSchedule
转载 2024-05-08 12:39:34
378阅读
  1. 背景问题:在部分 UT 中使用 PowerMock 后,导致 Sonar 不能获取对应的测试报告。大概原因:PowerMock 模拟 JDK 的静态方法、构造方法、final 方法、私有方法时,需要把使用这些方法的类加入到 @PrepareForTest 注解中,从而导致单元测试覆盖率不被统计。2. 思路2.1 明确问题出处,缩小定位范围DolphinScheduler U
转载 2024-09-19 18:03:34
118阅读
2.1. Logistic模型的缺陷 在Logistic模型中,为了处理有偏数据的影响,我们对除citric_acid(柠檬酸含量)和density(密度)之外的9个自变量均作了对数化处理,然而这种处理显然不一定和实际情况相一致。甚至从常理分析,这些描述理化性质的变量对于品质的影响很难说是严格正/负相关的。以Ph值为例,Ph值是衡量溶液酸碱度的变量,具体说,是衡量溶液中氢离子浓度的指标,服从Ph=
转载 2024-10-16 22:15:02
26阅读
# 使用HiveCLI插入数据的流程 HiveCLI是Apache Hive提供的一个命令行工具,用于对Hive数据库进行交互式操作。对于新手来说,插入数据是一个常见的需求,下面我将详细介绍使用HiveCLI插入数据的流程。 ## 流程概述 下面是使用HiveCLI插入数据的流程: 1. 连接到Hive服务器 2. 创建表格 3. 插入数据 接下来,我将逐步介绍每个步骤以及需要做的具体操作
原创 2024-01-06 08:49:27
25阅读
Sa-Token 集成SpringBoot简要步骤1.1 简单介绍Sa-Token是一个轻量级Java权限认证框架。主要解决的问题如下:登录认证权限认证单点登录OAuth2.0分布式Session会话微服务网关鉴权等一系列权限相关问题。1.2 登录认证设计思路对于一些登录之后才能访问的接口(例如:查询我的账号资料),我们通常的做法是增加一层接口校验:如果校验通过,则:正常返回数据。如果校验未通过,
转载 2024-03-18 12:06:42
159阅读
在上一篇博文中,描述了一些django项目结构的实践,但实际上还有很多改进的地方,正好和最近的一个项目可以自由发挥,就套用了原本的脚手架项目,并做了一些改进,另外也结合了docker。首先是总体的项目| |-deployment_yml |-deployment_server |-deployment_dockerfile |-project1 |-project2 项目会分为四个部分,第一个部分
转载 10月前
27阅读
  • 1
  • 2
  • 3
  • 4
  • 5