我用到的各个版本 不管你搭建哪个版本的集群,它依赖的各个版本一定要兼容,不然会遇到各种问题spark2.1.1 hadoop2.6.5  jdk1.7 scala2.11.6jdk的安装https://blog.csdn.net/lu1171901273/article/details/82048696scala安装 首先下载scala scala2.11.6下载地址,...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-08-30 14:19:35
                            
                                620阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            源码构建简化很多人吐槽StreamingPro构建实在太麻烦了。看源码都难。然后花了一天时间做了比较大重构,这次只依            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-03-10 22:14:41
                            
                                88阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1 安装Spark依赖的Scala          1.1下载和解压缩Scala          1.2 配置环境变量          1.3 验证Scala2下载和解压缩Spark                   
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-15 10:00:17
                            
                                714阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、运行速度方面:  Spark把中间数据放到内存中,迭代运算效率高。  Hadoop MapReduce将计算结果保存到磁盘上,这样会影响整体速度,而Spark支持DAG图的分布式并行计算的编程框架,减少了迭代过程中数据的落地,提高了处理效率。二、容错方面:  Spark引进了弹性分布式数据集RDD 的概念,它是分布在一组节点中的只读对象集合,这些集合是弹性的,如果数据集一部分丢失,则            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-18 22:35:11
                            
                                29阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Spark 是一款开源的大数据处理框架,由于其高性能和易用性,成为了数据科学家和工程师在大数据处理中的首选工具。本文将介绍如何从 Spark 的官方网站下载和安装 Spark,以及如何使用 Spark 进行基本的数据处理操作。
## Spark 的下载和安装
要下载 Spark,请访问官方网站 [Spark Downloads]( 页面。在该页面中,你会看到多个版本和包含的功能。我们选择 "s            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-08-27 12:20:31
                            
                                534阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            最近准备开始看spark源码,第一步当然是要搭建一个舒适的spark源码阅读环境,通过单步调试才能顺藤摸瓜的理清具体脉络,有助与提高阅读效率。在搭建环境过程中,遇到一些奇怪的错误,但居然都鬼使神差的搞定了,人品啊,哈哈哈Spark的源码使用scala语言编写的,说到scala的IDE工具,首选当然是idea,idea安装scala插件我这里就详说了,除了idea外,我们还需要安装的软件有:mave            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-07 01:25:05
                            
                                100阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            点亮⭐️Star·照亮开源之路GitHub:https://github.com/apache/incubatorseatunnel(https://github.com/apache/incubatorseatunnel)!(https://s2.51cto.com/images/blog/202210/08113050_6340eeea6ec5c80160.png?xossprocess=im            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-10-08 14:18:39
                            
                                199阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            从启动到关闭 | SeaTunnel2.1.1源码解析            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-04-27 01:14:28
                            
                                235阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            # 在Windows上下载Spark 2.1.1二进制文件
Apache Spark是一个快速的、分布式的大数据处理框架,它提供了丰富的API和工具,使得在大规模数据集上进行数据处理和分析变得更加容易。本文将介绍如何在Windows操作系统上下载并安装Spark 2.1.1二进制文件。
## 准备工作
在下载Spark 2.1.1之前,你需要准备以下工作:
1. 一个运行Windows操作            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-08-24 08:22:06
                            
                                311阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Spark源码梳理一、程序的起点spark-submit --class com.sjh.example.SparkPi --master local[*] …/demo.jar在windows下调用spark-submit.cmd在linux下调用spark-submit脚本脚本调用顺序:1、spark-submit2、 spark-submit2.cmdspark-class2.cmd org            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-05 16:42:41
                            
                                123阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Spark源码系列(二) Dependency&ReduceBykey源码 文章目录Spark源码系列(二) Dependency&ReduceBykey源码DependencyShuffleDependency  在Spark源码系列(一)RDD的文章中,主要提到了RDD的由来、原理以及主要的Transformation&Action算子。其中依赖和reduceBykey            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-05 16:09:56
                            
                                58阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Spark Shuffle 源码在划分stage时,最后一个stage称为finalStage,它本质上是一个ResultStage对象,前面的所有stage被称为ShuffleMapStage。 ShuffleMapStage的结束伴随着shuffle文件的写磁盘。 ResultStage基本上对应代码中的action算子,即将一个函数应用在RDD的各个partition的数据集上,意味着一个j            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-16 13:35:51
                            
                                35阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            在学习spark的过程中发现很多博客对概念和原理的讲解存在矛盾或者理解不透彻,所以开始对照源码学习,发现根据概念总结去寻找对应源码,能更好理解,但随之而来的问题是好多源码看不懂,只跑example的话好多地方跑不到,但是结合测试类理解起来就方便多了。fork一份源码,在未修改源码的情况下(修改源码后,比如加注释等,在编译阶段容易报错),使用gitbash进入项目的根目录下,执行下面2条命令使用mv            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-27 09:44:22
                            
                                99阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            前言之前,一直在考虑,如何延续职业生涯.虽然刚入职,但是危机意识告诉我,不能当咸鱼.拒绝996的同时,也要自我学习,才不至于早早被扫地出门.哪怕考公务员也要学习[手动吃瓜].
受到我们部门leader的启发,我决定深入探讨一个工具,钻研源码,做到"精通"一个工具.
由Spark始吧.
本系列,主要参考了耿嘉安的深入理解Spark核心思想与源码分析.可以理解成我照猫画虎,更新了自己的一版本吧.
就从            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-29 16:57:49
                            
                                67阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            RDD之getNarrowAncestors内部方法分析最近开始spark的源码攻关,其实看源码一直是我最怕的东西,因为太多、太杂、太深导致不能够很好的把我脉络导致每次最后都放弃。有人跟我说看源码可以阶段性一个方法一个方法的去学习,去看,每天积累一点总会成功,那么今天开始我的第一天spark源码分析。我这里从spark最基本的RDD中的方法说起,我感觉这样会更容易一些。同时我只对其中感觉比较重要的            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-31 23:52:51
                            
                                78阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Background在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的逻辑,本文就深入研究Spark的shuffle是如何实现的,有什么优缺点,与Hadoop MapRed            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-08 08:23:02
                            
                                27阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            前言:spark源码分析系列 ,文中有错误的地方 请多多指正。体系架构如下,可以看出spark是一个全兼容的生态圈,不一定是最好的,但是是最全面的,一个spark生态圈就可以解决绝大多数数的大数据问题。一、spark基本概念1.Application:就是一个程序,一个jar包,一个war包,也就是通过spark-submit提交的程序2.Driver:就是为这个应用所提供的运行环境,上            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-27 22:15:39
                            
                                91阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1、读《apache spark 源码剖析》第四章第1节作业提交 
  我也使用简单的WordCount例子sc.textFile("/hdfs-site.xml").flatMap(line=>line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _)来学习 
  
  2、源码学习 
  把例子像书中一样分成了几个子句,在命            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-17 08:23:01
                            
                                29阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            从两方面来阐述spark的组件,一个是宏观上,一个是微观上。1. spark组件要分析spark的源码,首先要了解spark是如何工作的。spark的组件:了解其工作过程先要了解基本概念官方罗列了一些概念:TermMeaningApplicationUser program built on Spark. Consists of a driver program and&nbs            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-11 20:05:03
                            
                                93阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             阅读好的开源项目是最好的学习code的方法,在一个大型项目中会涉及到软件工程的方方面面。项目代码作为最终的落地物质,其中必然会留下很多顶尖工程师、架构师、设计团队思考的痕迹;如果从这个层面去看一个开源项目,其实至少包括三个方面:1)这个项目是如何架构的,会用到哪些关键技术2)实现这些设计是怎么落到code层面,利用了哪些技巧3)利用了哪些好的库和管理的工具方法理念学习一个开源项目可以从            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-13 14:04:44
                            
                                52阅读
                            
                                                                             
                 
                
                                
                    