Mac M1 通过VMan安装Centos7.9,并搭建 Hadoop/Hive/Kafka/Flink/Iceberg 本地进行数据湖测试。问题:Paralles Desktop 没找到
本地搭建单节点Hadoop,根据官网示例进行Iceberg功能测试。组件版本
Flink 的 Standalone Cluster 模式直接使用相应版本即可,部署 Flink on YARN 需要重新编译对应 Hadoop版本。这里编译 Flink1.9.1 ,CDH6.2 平台 Hadoop 版本是 hadoop-3.0.0-cdh6.2.0。目录 1. Git 方式 1. 下载编译 flink-shade 2. 下载 Flink-1.9.1 源码 3...
master集群的 master 节点slaves集群中所有的工作节点flink-conf.yaml1. 基础配置# JobMaster节点IP地址jobmanager.rpc.address# JobMaster端口号,默认6123jobmanager.rpc.port:6123# JM 节点可分配的最大内存,master 主要管理集群资源...
1. 两种模式1. 共用一个 yarn-session在 YARN 中初始化一个 Flink 集群,初始化好资源,提交的任务都在这个集群执行,共用集群的资源。这个 Flink集群常驻在 YARN 集群中,要关闭可以手动停止。2. 每个Job启动一个集群每次提交都会创建一个新的 Flink 集群,Job之间是互相独立的。任务执行完之后集群会注销。2. yarn-s...
这里部署环境为CDH6.2 集群,三个节点,Flink 版本为编译的 Flink1.9.1 版本。Flink集群有两种部署的模式,分别是 Standalone 以及 YARNCluster 模式。Standalone 模式,Flink 必须依赖于 ZooKeeper 来实现 JobManager 的 HA(Zookeeper 已经成为了大部分开源框架 HA 必不可少的模块)。在 Zook...
业务场景:sdk 数据统一入Kafka 的一个 topic(topic_sdk_log),其中包含多种事件类型数据,如:登录,注册,激活等,需要将 Kafka 中数据根据事件类型分别写入 MySQL 多个表。这里使用 Flink 每5秒写入 MySQL 不同表。数据示例:{"key":"login","data":{"_game_version":"","_package...
业务场景:使用Flink同步Kafka数据近实时写入MySQL,需要将登录数据拆分为登录,日活,新增分别入三个MySQL表。采用侧输出流将流拆分为多个流,分别进行处理。/** * Flink 读取 Kafka,每秒聚合一次数据,批量写入 MySQL * * create by LiuJinHe 2020/5/26 */object CpDataKafkaToMySQL { private val logger = LoggerFactory.getLogger(thi...
FlinkSql 1.11 读写 Kafka 简单测试。FlinkSql 读 Kafkaimport org.apache.flink.streaming.api.scala._import org.apache.flink.table.api.EnvironmentSettingsimport org.apache.flink.table.api.bridge.scala.StreamTableEnvironmentimport org.apache.flink.types.Row.
需求:消费Kafka数据,进行数据清洗及维表关联补齐字段,最后结果写入Kafka。import java.time.Durationimport com.sm.function.udf._import com.sm.common.conf.PropManagerimport com.sm.constants.Constantsimport com.sm.utils.FlinkUtilsimport org.apache.flink.api.common.restartstrategy..
package com.sm.jobimport com.sm.utils.FlinkUtilsimport org.apache.flink.streaming.api.scala._import org.apache.flink.table.api.bridge.scala.StreamTableEnvironmentimport org.apache.log4j.Levelimport org.slf4j.LoggerFactory/** * flinkSQL 读写 mysql.
package com.sm.jobimport com.sm.function.udf.{ParseDeviceCode, ParsePopularize}import com.sm.utils.FlinkUtilsimport org.apache.flink.streaming.api.scala._import org.apache.flink.table.api.bridge.scala.StreamTableEnvironmentimport org.apache.log4j...
需求:日活明细分析,需要保存日活明细数据。通过对登录数据去重得到日活,但是因为乱序数据,客户端时间可能会存在变化。1. Flink窗口排序去重,写入HBase。import java.time.Durationimport com.sm.common.conf.PropManagerimport com.sm.constants.Constantsimport com.sm.utils.FlinkUtilsimport org.apache.flink.api.common.res..
import java.time.Durationimport com.sm.common.conf.PropManagerimport com.sm.constants.Constantsimport com.sm.utils.FlinkUtilsimport org.apache.flink.streaming.api.{CheckpointingMode, TimeCharacteristic}import org.apache.flink.streaming.api.environme.
1. 上传 flink 相关 plugins 到hdfs2. 上传 flink 相关 依赖到 hdfs3. 上传用户 jar 到 hdfs4. 提交任务flink run-application -t yarn-application \-c com.sm.analysis.rdw.SdkDataEtlOdsToDwd \-Djobmanager.memory.process.size=1600m \-Dtaskmanager.memory.process.size=2048
Flink自定义函数实现列传行,数据格式为Json数据:[{"key1":"value1","key2":"value2"...}]Java@FunctionHint(output = @DataTypeHint("ROW<drugUniversalName string, specifications string, goodsUnit string, " + "location string, instruction string, consumption strin.
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号