大数据技术派的博客_大数据

Flink状态容错savepoint与checkpoint

Flink系列文章第01讲：Flink 的应用场景和架构模型第02讲：Flink 入门程序 WordCount 和 SQL 实现第03讲：Flink 的编程模型与其他框架比较第04讲：Flink 常用的 DataSet 和 DataStream API 第05讲：Flink SQL & Table 编程和案例第06讲：Flink 集群安装部署和 HA 配置第07讲：Flink

java

flink

数据文件

原创精选 3月前 1973 阅读

Flink DataStream API 编程模型

Flink系列文章第01讲：Flink 的应用场景和架构模型第02讲：Flink 入门程序 WordCount 和 SQL 实现第03讲：Flink 的编程模型与其他框架比较第04讲：Flink 常用的 DataSet 和 DataStream API 第05讲：Flink SQL & Table 编程和案例第06讲：Flink 集群安装部署和 HA 配置第07讲：Flink

flink

java

数据

原创精选 3月前 1375 阅读 yyds干货盘点

Flink SQL管理平台flink-streaming-platform-web安装搭建

我的gitee地址：https://gitee.com/ddxygq/bigdatatechnicalpai最近看到有人在用flinksql的页面管理平台，大致看了下，尝试安装使用，比原生的flinksql界面确实好用多了，我们看下原生的，通过bin/sqlclient.sh命令进入那个黑框，一只松鼠，对，就是那个界面。。。。这个工具不是Flink官方出的，是一个国内的小伙伴写的，Github地址

flink

sql

kafka

原创推荐 2022-12-06 14:55:07 10000+阅读 1点赞

Flink同步Kafka数据到ClickHouse分布式表

我的gitee地址：https://gitee.com/ddxygq/bigdatatechnicalpai业务需要一种OLAP引擎，可以做到实时写入存储和查询计算功能，提供高效、稳健的实时数据服务，最终决定ClickHouse。什么是ClickHouse？ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。列式数据库更适合于OLAP场景(对于大多数查询而言，处理速

建表

数据

bc

原创精选 2022-12-06 14:50:44 10000+阅读 1评论 yyds干货盘点

flink-cdc同步mysql数据到hbase

本文首发于我的个人博客网站等待下一个秋Flink(https://www.ikeguang.com/article/2056)什么是CDC？CDC是（ChangeDataCapture变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。

flink

sql

mysql

原创精选 2022-09-20 15:45:46 10000+阅读

flink-cdc同步mysql数据到kafka

本文首发于我的个人博客网站等待下一个秋Flink(://.ikeguang.com/article/2055)什么是CDC？CDC是（ChangeDataCapture变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。

flink

kafka

sql

原创精选 2022-09-14 18:42:01 10000+阅读

Python常用基础语法知识点大全

记得我是数学系的，大二时候因为参加数学建模，学习Python爬虫，去图书馆借了一本Python基础书，不厚，因为有matlab和C语言基础，这本书一个星期看完了，学完后感觉Python入门很快，然后要开始学爬虫和矩阵计算，学习一下对应的包就行了，感觉很方便，爱上了这门语言，虽然毕业后做了Java，但是平时工作中也会用一些Python。不过初学者有很多基础知识点记不住，因为用得少，这里总结记录一下。

python

字符串

迭代器

原创精选 2022-07-25 11:07:12 10000+阅读 1收藏

数仓建模—OneID

今天是我在上海租房的小区被封的第三天，由于我的大意，没有屯吃的，外卖今天完全点不到了，中午的时候我找到了一包快过期的肉松饼，才补充了1000焦耳的能量。但是中午去做核酸的时候，我感觉走路有点不稳，我看到大白的棉签深入我的嘴里，我竟然以为是吃的，差点咬住了，还好我有仅存的一点意识。下午我收到女朋友给我点的外卖——面包（我不知道她是怎么点到的外卖，我很感动），很精致的面包，搁平时我基本不喜欢吃面包，但

数据

建模

spark

原创推荐 2022-03-31 17:39:18 10000+阅读 2收藏 2评论

数仓建模—数据集市

数据仓库系列文章(持续更新)1.数仓架构发展史(https://mp.weixin../s/lwv1P8PiTcQWhInw_G7X5Q)2.数仓建模方法论(https://mp.weixin../s/CTyynCUCLB2lq9S1ujRNaQ)3.数仓建模分层理论(https://mp.weixin../s/8rpDyo41Kr4r_2wp5hirVA)4.数仓建

数据集市

数据仓库

建模

原创 2022-02-25 10:41:52 10000+阅读

数据仓库—数据治理

关注公众号：大数据技术派，回复“资料”，领取1024G资料。数据仓库系列文章(部分已出，持续更新)1.数仓架构发展史(https://mp.weixin.qq.com/s/lwv1P8PiTcQWhInw_G7X5Q)2.数仓建模方法论(https://mp.weixin.qq.com/s/CTyynCUCLB2lq9S1ujRNaQ)3.数仓建模分层理论(https://mp.weixin.qq

数据

字段

数据管理

原创精选 2022-02-22 22:31:40 10000+阅读

Hive之同比环比的计算

关注公众号：大数据技术派，回复:资料，领取1024G资料。Hive系列文章1.Hive表的基本操作(http://www.ikeguang.com/?p=1657)1.Hive中的集合数据类型(http://www.ikeguang.com/?p=1611)1.Hive动态分区详解(http://www.ikeguang.com/?p=1615)1.hive中orc格式表的数据导入(http://

hive

sql

数据

原创精选 2022-02-18 21:04:57 10000+阅读

第02讲：Flink 入门程序 WordCount 和 SQL 实现

Flink系列文章

flink

java

sql

原创推荐 2022-02-10 21:59:52 10000+阅读

第12讲：Flink 常用的 Source 和 Connector

Flink系列文章1.第01讲：Flink的应用场景和架构模型(https://www.ikeguang.com/?p=1976)2.第02讲：Flink入门程序WordCount和SQL实现(https://www.ikeguang.com/?p=1977)3.第03讲：Flink的编程模型与其他框架比较(https://www.ikeguang.com/?p=1978)4.第04讲：Flink

flink

redis

apache

原创推荐 2022-01-29 10:24:47 10000+阅读

第01讲：Flink 的应用场景和架构模型

Flink系列文章1.第01讲：Flink的应用场景和架构模型(https://www.ikeguang.com/?p=1976)2.第02讲：Flink入门程序WordCount和SQL实现(https://www.ikeguang.com/?p=1977)3.第03讲：Flink的编程模型与其他框架比较(https://www.ikeguang.com/?p=1978)4.第04讲：Flink

flink

数据

实时计算

原创推荐 2022-01-27 09:53:38 10000+阅读

数据湖是谁？那数据仓库又算什么？

刀光剑影江湖情，摧枯拉朽浪滔滔。功名利禄拂衣去，山高水远路迢迢。数据湖初识近两年，为什么都开始谈论起DataLake这个”新名词”了？先说说我的想法，其实还是用户需求驱动数据服务，大家开始关注DataLake的根本原因是用户需求发生了质变，过去的数据仓库模式以及相关组件没有办法满足日益进步的用户需求。数据湖概念的诞生，源自企业面临的一些挑战，如数据应该以何种方式处理和存储。最开始，企业对种类庞杂的

数据

数据仓库

结构化

原创精选 2022-01-18 09:44:37 10000+阅读

2021，我这一年

2021，我这平凡的一年。这一年，说它平凡，一点也不为过。似乎从小到大，我所遭遇的一切事物，都是那么的平平常常。没有大起大落，没有日新月异。或许平静的生活只是外表，而内心则是向往大千世界的。感叹归感叹，还是总结一下这一年的一些平常琐碎，为接下来的一年做好准备铺垫吧。1.写作今年写作不及往年，尤其不及2019年。是的，今年在坚持这条道路上走的不好，我一直以为这是懒惰，直到后来才醒悟过来，自己的拖延症

公众号

建模

微信公众号

原创精选 2022-01-01 11:42:06 10000+阅读 1点赞

hbase构建二级索引的几种解决方案#yyds干货盘点#

!hbase构建二级索引(https://s4.51cto.com/images/blog/202112/28001352_61c9e6405311546967.png?xossprocess=image/watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_20,type_ZmFuZ3po

数据

字段

二级索引

原创精选 2021-12-28 12:35:10 4199 阅读 yyds干货盘点

Hive实战—时间滑动窗口计算#yyds干货盘点#

时间滑动计算今天遇到一个需求大致是这样的，我们有一个业务涉及到用户打卡，用户可以一天多次打卡，我们希望计算出7天内打卡8次以上，且打卡时间分布在4天以上的时间，当然这只是个例子，我们具体解释一下这个需求1.用户一天可以打卡多次，所以要求打卡必须分布在4天以上；2.7天不是一个自然周，而是某一天和接下来的6天，也就是说时间是是滑动的，窗口大小是7步长是1，说白了就是窗口计算；其实说到这里你就想到了窗

窗口函数

sql

外部调用

原创精选 2021-12-23 09:47:51 3435 阅读 1评论 yyds干货盘点

数仓建模—指标体系#yyds干货盘点#

指标体系提起指标这个词，每个人似乎都可以说出几个指标，像经常在工作中会听到的日活、月活、注册率、转化率、交易量等事实上指标就是用来量化事物的一个工具，帮助我们去将一些抽象的事件得出一个轮廓上的描述。例如我们可以从指标上判断一个产品的好坏，用户粘性等等，例如我们通过日活能去判断出我们整个产品的用户量，从而能反应出我们这个产品的一个健康程度，也就是否处于增长过程中。一个好的数据指标体系可以助力业务快速

数据

搜索

二级

原创推荐 2021-12-22 17:10:10 8174 阅读 2点赞 2收藏 1评论 yyds干货盘点

Hive实战UDF 外部依赖文件找不到的问题#yyds干货盘点#

!(https://s4.51cto.com/images/blog/202112/16125755_61bac753b8dda36677.png?xossprocess=image/watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk

java

jar

ide

原创推荐 2021-12-16 12:58:32 9082 阅读 1评论 yyds干货盘点

sqoop用法之mysql与hive数据导入导出#yyds干货盘点#

一.Sqoop介绍Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如：MySQL、Oracle、Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。对于某些NoSQL数据库它也提供了连接器。Sqoop，类似于其他ETL工具，使用元数据模型来判断数据类型并在数据从数据源转移到Hadoop时确保类型安

hive

mysql

数据

sqoop

hadoop

原创推荐 2021-12-06 22:38:37 10000+阅读 1点赞 1评论 yyds干货盘点

数仓建模—宽表的设计

其实宽表是数仓里面非常重要的一块，前面我们介绍过了维度表事实表，今天我们介绍一下宽表，前面我们说过了数仓是分层的，这是技术进步和时代变化相结合的产物，数仓的分层式为了更好地管理数仓以及更加高效地进行数据开发。

数据

建模

字段

大数据框架

数据质量

原创精选 2021-12-02 10:06:14 10000+阅读 1点赞 1收藏 1评论

Hive处理Json数据详解

Json格式的数据处理Json数据格式是我们比较常用的的一种数据格式，例如埋点数据、业务端的数据、前后端调用都采用的是这种数据格式，所以我们很有必要学习一下这种数据格式的处理方法准备数据catjson.data{"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"}{"movie":"661","rate":"3","timeSta

json

sql

嵌套

数据

hive

原创推荐 2021-11-30 22:24:42 10000+阅读 1点赞 1评论

Flink 是如何统一批流引擎的

2015年，Flink的作者就写了ApacheFlink:StreamandBatchProcessinginaSingleEngine(http://asterios.katsifodimos.com/assets/publications/flinkdeb.pdf)这篇论文。本文以这篇论文为引导，详细讲讲Flink内部是如何设计并实现批流一体的架构。前言!unifyblocks(https:/

flink

数据交换

批作业

数据

spark

原创精选 2021-11-29 09:49:28 10000+阅读 1评论

数据

大数据

数据分析

数据处理

数据挖掘

原创 2021-11-25 22:12:32 10000+阅读 1收藏

大数据学习路线(建议收藏)

前言要从事计算机行业的工作，不管是什么工作，开发、测试、还是算法等，都是要有一门自己比较熟练的编程语言，编程语言可以是C语言、Java、C等，只要是和你后续工作所相关的就可以（后续用到其他语言的话，你有一门语言基础了，学起来就快了）。一般初学者入门语言大多都会选择Java、C语言、C或者Python，而且现在网上有很多好的视频，可以供初学者学习使用。关于学习视频或者资料的选择，知乎或者百度等都有很

spark

ide

数据

scala

java

原创精选 2021-11-25 09:53:06 10000+阅读 1收藏 1评论

Spark SQL知识点大全与实战

SparkSQL概述1、什么是SparkSQLSparkSQL是Spark用于结构化数据(structureddata)处理的Spark模块。与基本的SparkRDDAPI不同，SparkSQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。在内部，SparkSQL使用这些额外的信息去做一些额外的优化，有多种方式与SparkSQL进行交互，比如:SQL和DatasetAPI

spark

scala

sql

hive

json

原创推荐 2021-11-22 11:07:13 10000+阅读 2收藏 1评论

大数据简介

一、大数据概论大数据（bigdata）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。最小的基本单位是bit，按顺序给出所有单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte=8bit1K=1024bit1MB=1024K1G=1

数据

大数据

结构化

hadoop

数据库

原创 2021-11-20 10:03:22 10000+阅读

Spark面试题（七）——Spark程序开发调优

Spark系列面试题Spark面试题（一）(https://www.ikeguang.com/?p=1922)Spark面试题（二）(https://www.ikeguang.com/?p=1923)Spark面试题（三）(https://www.ikeguang.com/?p=1924)Spark面试题（四）(https://www.ikeguang.com/?p=1931)Spark面试题（五

spark

调优

数据

程序开发

序列化

原创 2021-11-18 23:40:54 10000+阅读

Flume面试题整理

1、Flume使用场景（☆☆☆☆☆）线上数据一般主要是落地（存储到磁盘）或者通过socket传输给另外一个系统，这种情况下，你很难推动线上应用或服务去修改接口，实现直接向kafka里写数据，这时候你可能就需要flume这样的系统帮你去做传输。2、Flume丢包问题（☆☆☆☆☆）单机upd的flumesource的配置，100+M/s数据量，10wqpsflume就开始大量丢包，因此很多公司在搭建系

kafka

数据

数据丢失

hdfs

hadoop

原创精选 2021-11-18 23:39:34 10000+阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

大数据技术派

Flink状态容错savepoint与checkpoint

Flink DataStream API 编程模型

Flink SQL管理平台flink-streaming-platform-web安装搭建

Flink同步Kafka数据到ClickHouse分布式表

flink-cdc同步mysql数据到hbase

flink-cdc同步mysql数据到kafka

Python常用基础语法知识点大全

数仓建模—OneID

数仓建模—数据集市

数据仓库—数据治理

Hive之同比环比的计算

第02讲：Flink 入门程序 WordCount 和 SQL 实现

第12讲：Flink 常用的 Source 和 Connector

第01讲：Flink 的应用场景和架构模型

数据湖是谁？那数据仓库又算什么？

2021，我这一年

hbase构建二级索引的几种解决方案#yyds干货盘点#

Hive实战—时间滑动窗口计算#yyds干货盘点#

数仓建模—指标体系#yyds干货盘点#

Hive实战UDF 外部依赖文件找不到的问题#yyds干货盘点#

sqoop用法之mysql与hive数据导入导出#yyds干货盘点#

数仓建模—宽表的设计

Hive处理Json数据详解

Flink 是如何统一批流引擎的

大数据相关岗位介绍

大数据学习路线(建议收藏)

Spark SQL知识点大全与实战

大数据简介

Spark面试题（七）——Spark程序开发调优

Flume面试题整理