Flink系列文章 第01讲:Flink 的应用场景和架构模型 第02讲:Flink 入门程序 WordCount 和 SQL 实现 第03讲:Flink 的编程模型与其他框架比较 第04讲:Flink 常用的 DataSet 和 DataStream API 第05讲:Flink SQL & Table 编程和案例 第06讲:Flink 集群安装部署和 HA 配置 第07讲:Flink
我的gitee地址:https://gitee.com/ddxygq/bigdatatechnicalpai最近看到有人在用flinksql的页面管理平台,大致看了下,尝试安装使用,比原生的flinksql界面确实好用多了,我们看下原生的,通过bin/sqlclient.sh命令进入那个黑框,一只松鼠,对,就是那个界面。。。。这个工具不是Flink官方出的,是一个国内的小伙伴写的,Github地址
我的gitee地址:https://gitee.com/ddxygq/bigdatatechnicalpai业务需要一种OLAP引擎,可以做到实时写入存储和查询计算功能,提供高效、稳健的实时数据服务,最终决定ClickHouse。什么是ClickHouse?ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。列式数据库更适合于OLAP场景(对于大多数查询而言,处理速
本文首发于我的个人博客网站等待下一个秋Flink(https://www.ikeguang.com/article/2056)什么是CDC?CDC是(ChangeDataCapture变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。
本文首发于我的个人博客网站等待下一个秋Flink(://.ikeguang.com/article/2055)什么是CDC?CDC是(ChangeDataCapture变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。
记得我是数学系的,大二时候因为参加数学建模,学习Python爬虫,去图书馆借了一本Python基础书,不厚,因为有matlab和C语言基础,这本书一个星期看完了,学完后感觉Python入门很快,然后要开始学爬虫和矩阵计算,学习一下对应的包就行了,感觉很方便,爱上了这门语言,虽然毕业后做了Java,但是平时工作中也会用一些Python。不过初学者有很多基础知识点记不住,因为用得少,这里总结记录一下。
今天是我在上海租房的小区被封的第三天,由于我的大意,没有屯吃的,外卖今天完全点不到了,中午的时候我找到了一包快过期的肉松饼,才补充了1000焦耳的能量。但是中午去做核酸的时候,我感觉走路有点不稳,我看到大白的棉签深入我的嘴里,我竟然以为是吃的,差点咬住了,还好我有仅存的一点意识。下午我收到女朋友给我点的外卖——面包(我不知道她是怎么点到的外卖,我很感动),很精致的面包,搁平时我基本不喜欢吃面包,但
数据仓库系列文章(持续更新)1.数仓架构发展史(https://mp.weixin../s/lwv1P8PiTcQWhInw_G7X5Q)2.数仓建模方法论(https://mp.weixin../s/CTyynCUCLB2lq9S1ujRNaQ)3.数仓建模分层理论(https://mp.weixin../s/8rpDyo41Kr4r_2wp5hirVA)4.数仓建
关注公众号:大数据技术派,回复“资料”,领取1024G资料。数据仓库系列文章(部分已出,持续更新)1.数仓架构发展史(https://mp.weixin.qq.com/s/lwv1P8PiTcQWhInw_G7X5Q)2.数仓建模方法论(https://mp.weixin.qq.com/s/CTyynCUCLB2lq9S1ujRNaQ)3.数仓建模分层理论(https://mp.weixin.qq
关注公众号:大数据技术派,回复:资料,领取1024G资料。Hive系列文章1.Hive表的基本操作(http://www.ikeguang.com/?p=1657)1.Hive中的集合数据类型(http://www.ikeguang.com/?p=1611)1.Hive动态分区详解(http://www.ikeguang.com/?p=1615)1.hive中orc格式表的数据导入(http://
Flink系列文章
Flink系列文章1.第01讲:Flink的应用场景和架构模型(https://www.ikeguang.com/?p=1976)2.第02讲:Flink入门程序WordCount和SQL实现(https://www.ikeguang.com/?p=1977)3.第03讲:Flink的编程模型与其他框架比较(https://www.ikeguang.com/?p=1978)4.第04讲:Flink
刀光剑影江湖情,摧枯拉朽浪滔滔。功名利禄拂衣去,山高水远路迢迢。数据湖初识近两年,为什么都开始谈论起DataLake这个”新名词”了?先说说我的想法,其实还是用户需求驱动数据服务,大家开始关注DataLake的根本原因是用户需求发生了质变,过去的数据仓库模式以及相关组件没有办法满足日益进步的用户需求。数据湖概念的诞生,源自企业面临的一些挑战,如数据应该以何种方式处理和存储。最开始,企业对种类庞杂的
2021,我这平凡的一年。这一年,说它平凡,一点也不为过。似乎从小到大,我所遭遇的一切事物,都是那么的平平常常。没有大起大落,没有日新月异。或许平静的生活只是外表,而内心则是向往大千世界的。感叹归感叹,还是总结一下这一年的一些平常琐碎,为接下来的一年做好准备铺垫吧。1.写作今年写作不及往年,尤其不及2019年。是的,今年在坚持这条道路上走的不好,我一直以为这是懒惰,直到后来才醒悟过来,自己的拖延症
!hbase构建二级索引(https://s4.51cto.com/images/blog/202112/28001352_61c9e6405311546967.png?xossprocess=image/watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_20,type_ZmFuZ3po
时间滑动计算今天遇到一个需求大致是这样的,我们有一个业务涉及到用户打卡,用户可以一天多次打卡,我们希望计算出7天内打卡8次以上,且打卡时间分布在4天以上的时间,当然这只是个例子,我们具体解释一下这个需求1.用户一天可以打卡多次,所以要求打卡必须分布在4天以上;2.7天不是一个自然周,而是某一天和接下来的6天,也就是说时间是是滑动的,窗口大小是7步长是1,说白了就是窗口计算;其实说到这里你就想到了窗
指标体系提起指标这个词,每个人似乎都可以说出几个指标,像经常在工作中会听到的日活、月活、注册率、转化率、交易量等事实上指标就是用来量化事物的一个工具,帮助我们去将一些抽象的事件得出一个轮廓上的描述。例如我们可以从指标上判断一个产品的好坏,用户粘性等等,例如我们通过日活能去判断出我们整个产品的用户量,从而能反应出我们这个产品的一个健康程度,也就是否处于增长过程中。一个好的数据指标体系可以助力业务快速
!(https://s4.51cto.com/images/blog/202112/16125755_61bac753b8dda36677.png?xossprocess=image/watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk
一.Sqoop介绍Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:MySQL、Oracle、Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。对于某些NoSQL数据库它也提供了连接器。Sqoop,类似于其他ETL工具,使用元数据模型来判断数据类型并在数据从数据源转移到Hadoop时确保类型安
其实宽表是数仓里面非常重要的一块,前面我们介绍过了维度表事实表,今天我们介绍一下宽表,前面我们说过了数仓是分层的,这是技术进步和时代变化相结合的产物,数仓的分层式为了更好地管理数仓以及更加高效地进行数据开发。
Json格式的数据处理Json数据格式是我们比较常用的的一种数据格式,例如埋点数据、业务端的数据、前后端调用都采用的是这种数据格式,所以我们很有必要学习一下这种数据格式的处理方法准备数据catjson.data{"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"}{"movie":"661","rate":"3","timeSta
2015年,Flink的作者就写了ApacheFlink:StreamandBatchProcessinginaSingleEngine(http://asterios.katsifodimos.com/assets/publications/flinkdeb.pdf)这篇论文。本文以这篇论文为引导,详细讲讲Flink内部是如何设计并实现批流一体的架构。前言!unifyblocks(https:/
关注公众号:大数据技术派,回复“资料”,领取1000G资料。本文首发于我的个人博客:大数据相关岗位介绍(https://www.ikeguang.com/?p=1950)主要是介绍现在大数据中的一些岗位的要求、岗位描述和岗位职责,相关岗位的信息是对各个招聘网站中的一些要求做了一个总结一、大数据开发工程师:1.要求编程基础扎实,熟悉Java,熟悉Scala/Shell/Python语言中其中一种更好
前言要从事计算机行业的工作,不管是什么工作,开发、测试、还是算法等,都是要有一门自己比较熟练的编程语言,编程语言可以是C语言、Java、C等,只要是和你后续工作所相关的就可以(后续用到其他语言的话,你有一门语言基础了,学起来就快了)。一般初学者入门语言大多都会选择Java、C语言、C或者Python,而且现在网上有很多好的视频,可以供初学者学习使用。关于学习视频或者资料的选择,知乎或者百度等都有很
SparkSQL概述1、什么是SparkSQLSparkSQL是Spark用于结构化数据(structureddata)处理的Spark模块。与基本的SparkRDDAPI不同,SparkSQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。在内部,SparkSQL使用这些额外的信息去做一些额外的优化,有多种方式与SparkSQL进行交互,比如:SQL和DatasetAPI
一、大数据概论大数据(bigdata):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte=8bit1K=1024bit1MB=1024K1G=1
Spark系列面试题Spark面试题(一)(https://www.ikeguang.com/?p=1922)Spark面试题(二)(https://www.ikeguang.com/?p=1923)Spark面试题(三)(https://www.ikeguang.com/?p=1924)Spark面试题(四)(https://www.ikeguang.com/?p=1931)Spark面试题(五
1、Flume使用场景(☆☆☆☆☆)线上数据一般主要是落地(存储到磁盘)或者通过socket传输给另外一个系统,这种情况下,你很难推动线上应用或服务去修改接口,实现直接向kafka里写数据,这时候你可能就需要flume这样的系统帮你去做传输。2、Flume丢包问题(☆☆☆☆☆)单机upd的flumesource的配置,100+M/s数据量,10wqpsflume就开始大量丢包,因此很多公司在搭建系
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号