RDD 介绍RDD,全称Resilient Distributed Datasets(弹性分布式数据集),是Spark最为核心的概念,是Spark对数据的抽象。RDD是分布式的元素集合,每个RDD只支持读操作,且每个RDD都被分为多个分区存储到集群的不同节点上。除此之外,RDD还允许用户显示的指定数据存储到内存和磁盘中,掌握了RDD编程是SPARK开发的第一步。1:创建操作(creation op            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-15 11:51:57
                            
                                0阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一、数据读写(1)从文件系统加载数据创建RDD  ①本地文件:sc.textFile("file:///data/spark/buyer_favorite")  ②HDFS文件:sc.textFile("hdfs://localhost:9000/spark/buyer_favorite")(2)通过并行集合创建RDD  val array = Array(1,2,3            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-06 13:07:12
                            
                                87阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Spark 编程指南spark特性:  提供了java scala python 和R的api支持。  在生产环境上扩展超过8000个节点。  可以在内存中缓存交互中间数据的能力:提炼一个工作集合,缓存它,反复查询。  低级别的水平伸缩的数据检索可以通过scala或者python 命令行进行交互。  高级别的流处理库spark streaming可以处理流数据。  通过spark sql支持结构化            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-10 11:15:02
                            
                                79阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            概述Spark主要抽象弹性分布式数据集(RDD)——横跨集群所有节点进行并行计算的分区元素集合;用户可以要求Spark将RDD持久化到内存中,来让它在并行计算中高效地重用RDDs能在节点失败中自动地恢复过来共享变量(Shared Variables)两种类型的共享变量 
  广播变量——在所有节点的内存中缓存一个值;累加器——仅仅能执行“添加”操作初始化Spark初始化SparkSpark 编程的            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-17 18:45:39
                            
                                80阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            GraphX编程指南GraphX 是新的图形和图像并行计算的Spark API。从整理上看,GraphX 通过引入 弹性分布式属性图(Resilient Distributed Property Graph)继承了Spark RDD:一个将有效信息放在顶点和边的有向多重图。为了支持图形计算,GraphX 公开了一组基本的运算(例如,subgraph,jo            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-10-14 16:47:37
                            
                                187阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            文章目录零、IDEA的scala环境配置0.1 spark和scala之间的关系0.2 编写项目(0)创建项目(1)配置pom.xml文件:(2)配置对应环境(3)测试代码(4)控制台出去日志信息(5)注意事项0.3 IDEA中切换python环境一、scala特点1.1 面向对象特性1.2 函数式编程1.3 静态类型1.4 代码简单测试栗子二、scala基础语法12.1 基本语法(1)基本规范            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-02 18:57:47
                            
                                47阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            OverviewSpark Streaming(下称streaming)是Spark core的拓展,一个易扩展、高吞吐、高容错的流式数据处理系统。streaming-archstrea...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-06-10 21:00:47
                            
                                222阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Spark编程指南 译者说在前面:近期在学习Spark相关的知识,在网上没有找到比較详细的中文教程,仅仅找到了官网的教程。出于自己学习同一时候也造福其它刚開始学习的人的目的,把这篇指南翻译成了中文。笔者水平有限,文章中难免有很多谬误,请高手指教。 本文翻译自Spark Programming Gui            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2017-07-28 09:56:00
                            
                                233阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            Spark Streaming 是核心Spark API的扩展,可实现实时数据流的可伸缩,高吞吐量,容错流处理。可以从许多数据源(例如Kafka,Flume,Kinesis或TCP sockets)中提取数据,并且可以使用复杂的算法处理数据,这些算法用高级函数表示,如map、reduce、join和 ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-05-03 23:16:46
                            
                                382阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            OverviewSpark Streaming(下称streaming)是Spark core的拓展,一个易扩展、高吞吐、高容错的流式数据处理系统。streaming-archstrea...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-06-10 21:00:46
                            
                                210阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Spark Streaming编程指南   
 概览Spark Streaming 是基于Spark 核心API的扩展,使高伸缩性、高带宽、容错的流式数据处理成为可能。数据可以来自于多种源,如Kafka、Flume、Kinesis、或者TCP sockets等,而且可以使用map、reduce、join 和 window等高级接口实现复杂算法的处理。最终,处理的数据可以被推送到数据库            
                
         
            
            
            
            总览第一、每个spark 应用都有一个驱动程序去运行着主函数和再每个节点上的并行操作。
spark提供了一个RDD(弹性分布式数据集)的数据集合,可以通过不同的节点并行操作运算,可以通过hdfs文件构建。RDD可以在内存中进行缓存,当需要复用的时候会有更高的效率。第二、提供了共享变量(shared varibales)在不同节点的并行操作中使用。一个是广播变量(broadcast variable            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-29 12:27:16
                            
                                56阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Spark Structured Streaming入门操作            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                            精选
                                                        
                            2023-10-19 11:36:09
                            
                                266阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Spark Structured Streaming入门操作            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-07-12 16:38:28
                            
                                1110阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            # Java 编程指南
## 1. 简介
欢迎来到Java编程指南!本文将指导你如何学习和掌握Java编程。作为一名经验丰富的开发者,我将为你提供一些关键步骤和代码示例,帮助你入门。
## 2. 学习流程
下面是学习Java编程的一般流程,我们将一步步实现这个过程。请参考以下表格:
| 步骤 | 描述 |
| ---- | ---- |
| 1    | 下载并安装Java开发工具包(J            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-08-04 05:36:08
                            
                                51阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            目录一、RDD的概念二、RDD编程 1.RDD创建1.1从集合中创建1.2 从文件中读取数据集创建1.3 从其RDD创建 2.分区规则2.1从集合创建RDD2.2 从文件创建RDD3.Transformation转换算子3.1Value类型1.map()映射2.mapPartitions()以分区为单位执行Mapmap()和mapPartitions()区别: 3.m            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-11 13:44:08
                            
                                66阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Spark菜鸟学习营Day1从Java到RDD编程菜鸟训练营主要的目标是帮助大家从零开始,初步掌握Spark程序的开发。 Spark的编程模型是一步一步发展过来的,今天主要带大家走一下这段路,让我们从一段最最基础的Java代码开始。问题:Java有哪些数据结构大致有如下几种,其中List与Map是最重要的:ListMapSetArrayHeapStackQueueTree练习:构造一个1-5的Li            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-20 12:01:36
                            
                                86阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            # Spark Java 编程介绍
## 引言
近年来,大数据分析和处理成为各个行业都非常重要的一项技术能力。而Spark作为大数据处理框架中的佼佼者,成为了各个企业和研究机构广泛使用的工具之一。本文将介绍Spark Java编程的基础知识和常用的操作,帮助读者快速入门和理解Spark Java编程。
## Spark 简介
Apache Spark是一个开源的大数据处理框架,它提供了快速、通            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-08-05 12:18:59
                            
                                120阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            前言: Spark SQL是Spark大数据框架的一部分, 支持使用标准SQL查询和HiveQL来读写数据,可用于结构化数据处理,并可以执行类似SQL的Spark数据查询,有助于开发人员更快地创建和运行Spark程序。 全书分为4篇,共9章,第一篇讲解了Spark SQL发展历史和开发环境搭建。第二篇讲解了Spark SQL实例,使得读者掌握Spark SQL的入门操作,了 解Spark RDD、            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-17 22:42:18
                            
                                168阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、简介RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果(count, collect等),或者是向存储系统保存数据(saveAsTextFile等)。在Spark中,只有遇到action,才会执行RDD的计算(即延迟计算),这样在运行时可以通过管道的            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-18 22:47:18
                            
                                87阅读
                            
                                                                             
                 
                
                                
                    