# 实现redisContext线程池的步骤
## 简介
在实际开发中,我们经常需要使用Redis作为缓存数据库。而为了提高Redis的性能,我们可以使用线程池来管理和复用多个redisContext连接,从而减少连接创建和销毁的开销。接下来,我将介绍如何实现一个redisContext线程池。
## 步骤
下面是实现redisContext线程池的步骤:
| 步骤 | 描述 |
| --            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-09-16 13:04:44
                            
                                146阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            最近在找工作,一直问底层实现,接下来记录一下redis的底层实现。今天说下 简单动态字符串,也就是SDS。SDS是redis的核心数据。虽然简单,但特别重要。包含字符串的键值对的数据类型都是由SDS实现的,而不是简单的一个C语言字符串,下面看一下这个SDS是什么样子的。  1.SDS数据结构struct sdshdr{
 //字符串长度
   int len;
 //buf数            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-10-08 12:51:00
                            
                                27阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一、说明整数集合( intset) 是集合键的底层实现之一, 当一个集合只包含整数值元素, 并且这个集合的元素数量不多时, Redis就会使用整数集合作为集合键的底层实现。二、整数集合在redis中的应用当一个集合只包含整数值元素, 并且这个集合的元素数量不多时, Redis就会使用整数集合作为集合键的底层实现。三、整数集合的实现整数集合( intset) 是集合键的底层实现之一, 当一个集合只包            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-09 22:04:25
                            
                                20阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Redis简介:  REmote DIctionary Server(Redis) 是一个由Salvatore Sanfilippo写的key-value存储系统。  Redis是一个开源的使用ANSI C语言编写、遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。  它通常被称为数据结构服务器,因为值(value)可以是 字符串(Strin            
                
         
            
            
            
             文章目录Redis数据结构介绍Redis命令Redis通用命令String类型key的结构Redis字符串STRING中BIT相关命令Hash类型List类型Set类型SortedSet类型 Redis数据结构介绍redis是一个key-value的数据库,key一般是String类型,不过value的类型多种多样:基本类型 
  String:是redis中最基本的数据类型,redis中的St            
                
         
            
            
            
            Spark 开发原则坐享其成要省要拖跳出单机思维 应用开发原则 :坐享其成 : 利用 Spark SQL 优化能省则省、能拖则拖 : 节省数据量 , 拖后 Shuffle跳出单机思维 : 避免无谓的分布式遍历坐享其成设置好配置项,享受 Spark SQL 的性能优势,如钨丝计划、AQE、SQL functions钨丝计划:Tungsten 自定义了紧凑的二进制格式的数据结构,避免了 Java 对            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-28 01:18:02
                            
                                100阅读
                            
                                                        
                                点赞
                            
                                                                             
                 
                
                             
         
            
            
            
            Spark扩展持久化RDD Cache缓存RDD CheckPoint 检查点缓存和检查点区别自定义分区存储与读取累加器广播持久化RDD Cache缓存RDD 通过 Cache 或者 Persist 方法将前面的计算结果缓存,默认情况下会把数据以缓存在 JVM 的堆内存中。但是并不是这两个方法被调用时立即缓存,而是触发后面的 action 算子时,该 RDD 将会被缓存在计算节点的内存中,并供后面重用。// cache 操作会增加血缘关系,不改变原有的血缘关系println(wordToOneR.            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-03-23 10:21:17
                            
                                998阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一、什么是SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架。Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-12 09:57:21
                            
                                445阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1、Application  application(应用)其实就是用spark-submit提交的程序。一个application通常包含三部分:从数据源(比方说HDFS)取数据形成RDD,通过RDD的transformation和action进行计算,将结果输出到console或者外部存储。2、Driver  Spark中的driver感觉其实和yarn中Application Master的            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-02 10:32:42
                            
                                202阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、定义与特点定义 
  专为大规模数据处理而设计的快速通用的计算引擎,并形成一个高速发展应用广泛的生态系统。特点 
  速度快 
    内存计算下,Spark 比 Hadoop 快100倍易用性 
    80多个高级运算符跨语言:使用Java,Scala,Python,R和SQL快速编写应用程序。通用性 
    Spark 提供了大量的库,包括SQL、DataFrames、MLib、Gra            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-10 09:12:39
                            
                                366阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Spark官方文档: Spark Configuration(Spark配置)Spark主要提供三种位置配置系统:环境变量:用来启动Spark workers,可以设置在你的驱动程序或者conf/spark-env.sh 脚本中;java系统性能:可以控制内部的配置参数,两种设置方法:编程的方式(程序中在创建SparkContext之前,使用System.setProperty(“xx”,“xxx            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2017-07-03 11:19:00
                            
                                6469阅读
                            
                                                        
                                点赞
                            
                                                                             
                 
                
                             
         
            
            
            
            spark架构设计 1 角色名称 Client,Driver program,cluster manager/Yarn,workerNode 2 角色作用 client:用户通过client提交application程序,shell命令等 Driver:启动sparkContext环境,将application程序转换成任务RDD和DAG有向图,与clustermanger进行资源交互,分配ta            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-09 15:40:46
                            
                                163阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            引入 一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。 面向大规模数据分析,数据检查点操作成本非常高,须要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同一时候还须要消耗很多其它的存储资源。 因此,Spark选择记录更新的方式。可是,假设更新            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2017-07-13 21:10:00
                            
                                2606阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            一、官网介绍 1 什么是Spark 官网地址:://spark.apache.org/ Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-08-03 09:25:00
                            
                                2527阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            一、分区的概念 分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务的个数,也是由RDD(准确来说是作业最后一个RDD)的分区数决定。 二、为什么要进行分区 数据分区, ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-08-03 14:38:00
                            
                                3049阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            本编主要基于B站尚硅谷的视频及文档做出的一些改写和添加自己的理            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-03-23 10:24:56
                            
                                835阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            # 监控Spark History的入门指南
作为一名刚入行的开发者,监控Spark History可能是一个令人生畏的任务。但不用担心,本文将引导你一步步实现监控Spark History的过程。通过本文,你将学会如何设置和使用Spark监控工具,确保你的Spark作业运行得更加高效和稳定。
## 监控Spark History的流程
首先,让我们通过一个表格来了解整个监控流程的步骤:            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-07-30 11:25:29
                            
                                641阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Apache Spark 是一个开源的统一分析引擎,能够快速、通用地处理大规模数据集,而 “Spark” 通常是指其架构及功能的简写。在本文中,我们将探讨如何解决“Apache Spark 和 Spark”的问题,包括环境准备、分步指南、配置详解、验证测试、优化技巧和排错指南。
## 环境准备
确保在你的计算机上安装 Apache Spark 之前,必须满足一些前置依赖。以下是需要安装的组件及            
                
         
            
            
            
            在大数据处理的过程中,Apache Spark 是一个非常重要的工具,尤其是在执行数据分析时。使用 `spark shell` 通过 Spark 链接 Spark 集群时,有时会遇到一系列复杂的问题。本篇博文旨在对解决“spark shell 链接spark”的过程进行全面梳理。
## 环境配置
首先,我们需要配置 Spark 环境。这包含Java和Scala的安装,以及对Spark的配置。在这            
                
         
            
            
            
            Spark代码流程创建SparkConf对象可以设置Application name。 可以设置运行模式及资源需求。 val conf = new SparkConf() conf.setAppName(“wordcount”) conf.setMaster(“local”) conf.set(key, value)创建SparkContext对象val sc = new SparkContext            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-04 22:53:06
                            
                                77阅读