热门 最新 精选 话题 上榜
本章节重点介绍了 Flink Job 提交过程,包含了 StreamGraph 到 JobGraph 在客户端的转换和优化,并给出了源码级剖析。虽然是以 per-job 模式下的提交过程为例,但在 session、application 模式下核心代码并无二致,均可作为研究参照。
1背景介绍在日常数据研发工作中,我们会遇到如下常见场景问题,其一为:数据测试人员要对产出多表的一致性进行检测,其二为:数据对账体系,如资金流和订单数据要保持一致,其三为:数据模型迁移过程中,要对迁移前后的数据进行对比,其四为:数据存储在不同库中,例如A存储到ODPS,B存储到ADB,其中AB库中数据必须要保持一致。如上述4种常见问题,我们需要一套能界面交互(勾选或低代码交互)、离线核对、实时核对、
推荐 原创 10月前
5212阅读
3点赞
yyds干货盘点
数据对比DataCompare系统设计原理
1、前言HiveServer2 属于 Hive 组件的一个服务,主要提供 Hive 访问接口,例如可通过 JDBC 的方式提交 Hive 作业,HiveServer2 基于 Java 开发,整个服务运行过程中,内存的管理回收均由 JVM 进行控制。在 JVM 语言中的内存泄漏与 C/C++ 语言的内存泄漏会有些差异,JVM 的内存泄漏更多的是业务代码逻辑错误引起大量对象引用被持有,导致多次 GC
推荐 原创 10月前
2352阅读
3点赞
yyds干货盘点
HiveServer2 内存泄漏问题定位与优化方案
文章目录零、准备工作0.1 安装pyspark一、pyspark.sql部分1.窗口函数2.更换列名:3.sql将一个字段根据某个字符拆分成多个字段显示4.pd和spark的dataframe进行转换
推荐 原创 10月前
3306阅读
【Pyspark】常用数据分析基础操作
我们知道 Flink 有Table(表)、View(视图)、Function(函数/算子)、Database(数据库)的概念,相对于这些耳熟能详的概念,Flink 里还有一个 Catalog(目录) 的概念。本文将为大家带来 Flink Catalog 的介绍以及 Flink Catalog 在 ChunJun 中的实践之路。Flink Catalog 简介Catalog 提供元数据,如数据库、表
推荐 原创 10月前
8208阅读
详解 Flink Catalog 在 ChunJun 中的实践之路
Apache Hudi 是一个基于 Hadoop 的分布式数据存储系统,支持存储结构化和非结构化数据。Hudi 的时间轴 (TimeLine) 是其重要的组成部分,用于管理和跟踪数据的变化历史。在本文中,我将详细介绍 Hudi 时间轴的基本概念、特点以及如何使用它来进行数据管理。 一、Hudi 时间轴的基本概念 Hudi 时间轴用于跟踪和管理数据的变化历史。它支持对数据的增删改查,并且能够高效地
推荐 原创 10月前
1182阅读
yyds干货盘点
一口气学完Hudi——核心概念之时间轴