在Shuffle Read阶段, 数据操作需要3个功能: 跨节点数据获取、 聚合和排序。 (1) 不需要聚合, 不需要按Key进行排序。 ,等待所有的map task结束后, reduce task开始不断从各个map task获取< K, V> record, 并将record输出到一个buffer中(大小为spark.reducer.maxSizeInFlight=4
大数据处理框架设计与实现 文章摘要
spark书籍文章摘要
RDD数据分区划分,分区依赖如何确定。宽窄依赖概念
高阶函数的基本概念
Scala中函数的基本使用
官网地址:https://nightlies.apache.org/flink/flink-docs-release-1.15/zh/docs/concepts/flink-architecture/Flink架构图:Flink架构剖析:Flink 运行时由两种类型的进程组成:一个 JobManager 和一个或者多个 TaskManager。Client&n
1.Spark是微批处理,Flink基于一个个事件流式处理 2.Spark是没有状态的, Flink基于状态编程,3.Spark是通过微批数据模拟流数据处理,秒级数据延迟;Flink 可以用流数据模拟批数据更好扩展4.时间机制:Spark Streaming 支持的时间机制有限,只支持处理时间。使用processing time模拟event time必然会有误差, 如果产生数据堆积的话
转载连接:https://cloud.tencent.com/developer/article/1337394一、前述Spark可以和Yarn整合,将Application提交到Yarn上运行,和StandAlone提交模式一样,Yarn也有两种提交任务的方式。二、具体 1、yarn-client提交任务方式配置 在client节点配
持续更新大数据中的SQL题总结
基本概念bitMap(位图),即为bit的集合,是一种数据结构,可用于记录大量的0-1状态在在很多地方都会用到,比如Linux内核(如inode,磁盘块)、Bloom Filter算法等,其优势是可以在一个非常高的空间利用率下保存大量0-1状态。 原理: BitMap基本原理就是用一个bit存放某种状态,适用于大规模数据的去重,判断数据是否存在;举例:在Java里面一个int
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号