概述:1.sparkContext初始化很重要,因为他是Driver应用程序提交执行的前提,只有sparkContext初始化后才可以Driver提交用户应用程序,也就是说spark driver的初始化围绕着sparkContext初始化展开的,SparkContext可以算是spark应用程序的发动机引擎
    2.源码研究以local模式为主
    3.Spark中的组件很多,就其功能而            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-15 19:19:51
                            
                                27阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            [看图说话] 基于Spark UI性能优化与调试——初级篇     Spark有几种部署的模式,单机版、集群版等等,平时单机版在数据量不大的时候可以跟传统的java程序一样进行断电调试、但是在集群上调试就比较麻烦了...远程断点不太方便,只能通过Log的形式进行数据分析,利用spark ui做性能调整和优化。那么本篇就介绍下如何利用Ui做性能分析,因为本人的经验也不是很丰富,所以只能作为一个入门            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-14 19:33:39
                            
                                33阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            放一张老生常谈的架构图吧:SparkContext可以说是Apache Spark的“众妙之门”,无论任何Spark工程,最最重要的一步就是正确的创建SparkContext,这是一切项目代码能够正确运行的基石。为什么这么说?因为Spark的作者们为SparkContext对象集成了各种各样的功能,譬如它能够让你的Spark Application通过Cluster Manager(亦称为Res            
                
         
            
            
            
            (1)shuffle概述:  大多数spark作业的性能主要就是消耗了shuffle过程,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占到一小部分而已。(2)sp            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-10-17 09:35:31
                            
                                22阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            网络IO Linux 的内核将所有外部设备都看做一个文件来操作(一切皆文件),对一个文件的读写操作会调用内核提供的系统命令,返回一个file descriptor(fd,文件描述符)。而对一个socket的读写也会有响应的描述符,称为socket fd(socket文件描述符),描述符就是一个数字,            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2019-10-02 15:08:00
                            
                                241阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            本地IO:程序读写磁盘数据很慢,于是在内核中建立了pagecache进行加速。 不同的磁盘文件可能对应不同pagecache。 如果程序读写速度太快,可能pagecache来不及向磁盘写数据,需要注意双写一致性。 网络IO:待处理的数据存储在网卡的缓存buf中,每和其他主机建立一个连接,都会在内核新 ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-08-25 16:08:00
                            
                                1156阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            redhat7.3系统大数据集群4台机器--集群外1台机器通过集群外的机器向大数据集群提交spark-sql任务,任务如下: 任务执行失败。主要表现为:服务端shell日志报错为:ERROR SparkContext: Error initializing SparkContext.
org.apache.spark.SparkException: Yarn application h            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-15 01:09:37
                            
                                343阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            # 如何减少Spark DAG中的磁盘IO
## 引言
在Spark中,DAG是一个由RDD和操作组成的有向无环图,用来表示Spark作业的执行流程。减少磁盘IO可以提高Spark作业的性能和效率,特别是对于大规模数据处理来说。本文将向新手开发者介绍如何在Spark DAG中减少磁盘IO的方法。
## 流程
```mermaid
flowchart TD
    Start(开始)
    S            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-03-18 03:43:56
                            
                                64阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1. 缓存IO 缓存I/O又被称作标准I/O,大多数文件系统的默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中,数据先从磁盘复            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-12-15 20:47:35
                            
                                1291阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1、select: select库是在linux和windows平台都基本支持的 事件驱动模型库,并且在接口的定义也基本相同,只是部分参 数的含义略有差异,最大并发限制1024,是最早期的事件驱动模型。  2、poll: 在Linux 的基本驱动模型,windows不支持此驱动模型,是select的升级版,取消了最大的并发限制,在编译 nginx的时候可以使用--with-poll_module和            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2019-10-25 15:05:40
                            
                                411阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            博客主页:?看看是李XX还是李歘歘??每天分享一些包括但不限于计算机基础、算法等相关的知识点??是一旦调用返回...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-06-29 17:22:38
                            
                                93阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            # Java 网络IO实现流程
## 简介
Java网络IO是指通过网络进行数据传输的过程,包括服务器与客户端之间的通信。在Java中,可以使用Socket和ServerSocket类来实现网络IO。Socket类用于创建客户端,通过向服务器发送请求和接收服务器的响应来进行通信。ServerSocket类用于创建服务器端,监听来自客户端的请求并处理。
## 流程概述
下面是实现Java网络            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-08-02 18:48:41
                            
                                50阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            本文讲解Spark的结构化数据处理,主要包括:Spark SQL、DataFrame、Dataset以及Spark SQL服务等相关内容。本文主要讲解Spark 1.6.x的结构化数据处理相关东东,但因Spark发展迅速(本文的写作时值Spark 1.6.2发布之际,并且Spark 2.0的预览版本也已发布许久),因此请随时关注Spark SQL官方文档以了解最新信息。文中使用Scala对Spar            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-16 13:25:30
                            
                                29阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            TCP和UDP有什么区别? TCP为什么是三次握手,而不是两次? TCP Transfer Control Protocol 是一种面向连接的、可靠的、传输层通信协议。	特点: 好比是打电话: 面向连接的,点对点的通信,高可靠的,效率比较低,占用的系统资源比较多。UDP User Datagram 
                    
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-05-04 11:18:22
                            
                                4阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            红帽企业是世界著名的 Linux 开源软件和服务提供商,其旗下的 Red Hat Enterprise Linux(RHEL)是企业级用户首选的操作系统之一。在 Linux 网络 IO 方面,红帽企业提供了一系列强大的工具和技术,帮助用户优化网络性能,提高效率。
Linux 作为一个免费开源的操作系统,拥有强大的网络 IO 能力。红帽企业是其主要的支持者之一,通过不断的研发和优化,为用户提供了一            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-02-28 11:10:07
                            
                                72阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            # Python网络IO
在当今互联网时代,网络通信是程序开发中不可或缺的一部分。Python作为一种广泛使用的编程语言,拥有丰富的网络IO库,使得网络通信变得更加简单和高效。本文将为大家介绍Python网络IO的基础知识,包括网络IO的概念、Python网络IO的库以及代码示例。
## 网络IO概念
网络IO是指计算机在网络上进行输入和输出操作的过程。在网络IO中,数据通过网络传输到远程主            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-05-13 04:28:17
                            
                                46阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            # Java网络IO探索
## 引言
网络IO(输入输出)是现代应用程序中不可或缺的一部分,尤其是当我们需要与其他计算机或服务通信时。Java作为一门强大的编程语言,提供了丰富的API来处理网络IO操作。在这篇文章中,我们将探索Java的网络IO,举例说明如何创建一个简单的客户端和服务器,并详细解释相关的代码。
## Java网络IO概述
Java网络编程主要依赖于`java.net`包,            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-08-04 06:26:14
                            
                                11阅读
                            
                                                                             
                 
                
                             
         
            
            
            
              注:使用InputStream 作为方法参数的时候,需要将该参数作为方法的最后一个参数,否则会有问题     dubbo和hessian的maven依赖:    1. <dependency>  
2.     <groupId>com.alibaba</groupId>  
3.     <artifactId            
                
         
            
            
            
            Java学习笔记(12)——IO流和网络编程一、IO流1 io流概述1.1 流的分类1.操作数据单位:字节流、字符流2.数据的流向:输入流、输出流3.流的角色:节点流、处理流说明:红框对应的是IO流中的4个抽象基类。 蓝框的流需要大家重点关注。2 File类介绍2.1.File类的理解File类的一个对象,代表一个文件或一个文件目录(俗称:文件夹)File类声明在java.io包下File类中涉及            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-19 13:31:05
                            
                                128阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1.简介java.io 包几乎包含了所有操作输入、输出需要的类。所有这些流类代表了输入源和输出目标。java.io 包中的流支持很多种格式,比如:基本类型、对象、本地化字符集等等。一个流可以理解为一个数据的序列。输入流表示从一个源读取数据,输出流表示向一个目标写数据。Java 为 I/O 提供了强大的而灵活的支持,使其更广泛地应用到文件传输和网络编程中。Java 的 I/O 大概可以分成以下几类: