问题描述同事在执行sql查询直接用limit 查看几条数据时发现报错,但是用count或* 查询是显示有数据。第一感觉真的很奇怪,后面发现是马虎的锅;select * from tableName ; 正确显示数据;select * from tableName limit 2; 查询报错(因为公司日志复制不出来,只好敲出来一部分,剩余上图了)java.lang.UnsupportedO            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-20 22:24:19
                            
                                73阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            BigDL是基于Apache Spark的分布式深度学习框架,借助现有的Spark集群来运行深度学习计算,并简化存储在Hadoop中的大数据集的数据加载。1.1丰富的深度学习支持。模拟Torch之后,BigDL为深入学习提供全面支持,包括数字计算(通过Tensor)和高级神经网络 ; 此外,用户可以使用BigDL将预先训练好的Caffe或Torch模型加载到Spark程序中。1.2极高的性能。为了            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-09 20:12:38
                            
                                53阅读
                            
                                                                             
                 
                
                             
         
            
            
            
              本文详细讲解了如何安装YOLOv5网络依赖的GPU版本的Pytorch,本人自从入坑YOLOv5后,前前后后配置了近10次环境,有时代码调好能跑了,放上一两个月再跑,竟然报错了!  最近重装了一次电脑,重新配置了一遍环境,于是痛下决心要记录下配置环境中可能出现的问题,这里需要强调的是,我是在配好环境后写的这篇文章,大多图片是采用别人博客中的图片(在Refenrence中表明了出处,实在不想再重            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-28 16:30:24
                            
                                1017阅读
                            
                                                        
                                点赞
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1 package com.test
 2 
 3 
 4 import org.apache.spark.{SparkConf, SparkContext}
 5 
 6 
 7 object WordCount {
 8   def main(args: Array[String]) {
 9     /**
10       * 第1步;创建Spark的配置对象SparkConf,设置Spa            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-09-09 13:54:19
                            
                                53阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Spark运行环境和架构1. Spark运行环境Spark作为一个数据处理框架和计算引擎,它被设计在所有常见的集群环境下运行,目前主流环境是基于Hadoop的Yarn环境,docker环境也在慢慢流行起来Spark的运行环境目前分为三种模式:local模式、standalone模式和Yarn模式1.1 local模式local模式是不需要其他任何节点资源就可以在本地执行Spark程序的环境,一般用            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-06 12:11:09
                            
                                244阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Spark 运行环境Spark 作为一个数据处理框架和计算引擎,被设计在所有常见的集群环境中运行, 在国内工作中主流的环境为 Yarn,不过逐渐容器式环境也慢慢流行起来。接下来,我们就分别看看不同环境下 Spark 的运行1 Local 模式所谓的 Local 模式,就是不需要其他任何节点资源就可以在本地执行 Spark 代码的环境,一般用于教学,调试,演示等,之前在 IDEA 中运行代码的环境我            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-05 16:25:14
                            
                                98阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Spark应用程序以进程集合为单位在分布式集群上运行,通过driver程序的main方法创建的SparkContext对象与集群交互。1、Spark通过SparkContext向Cluster manager(资源管理器)申请所需执行的资源(cpu、内存等)2、Cluster manager分配应用程序执行需要的资源,在Worker节点上创建Executor3、SparkContext 将程序代码            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-13 15:42:44
                            
                                115阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1.调用SparkSubmit类 执行submit方法 -->doRunmain--> RunMain-->通过反射机制创建我们的主类对象--》再拿到主类的main方法--》执行主类的main方法 2.开始构造sparkConf对象和sparkContext对象 作为提交任务的入口类,在sparkContext入口类里会做三件事, 创建了SparkEnv对象(创建了ActorSy            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-13 19:00:00
                            
                                30阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一:spark的运行模式        spark的运行模式有多种。当部署在单机上的时候,可以用本地模式(local),或者伪分布式模式;当以分布式集群的方式部署时,也有多种运行模式:      1,spark内建的Standalone模式:Spark:hostname:port       &nb            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-27 18:48:49
                            
                                141阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             目录一、Local 模式1. 解压缩文件2. 启动 Local 环境3. 命令行工具4. 退出本地模式5. 提交应用二、Standalone 模式1. 解压缩文件2. 修改配置文件3. 启动集群4. 提交应用5. 提交参数说明6. 配置历史服务7. 配置高可用 (HA)三、Yarn 模式1. 解压缩文件2. 修改配置文件3. 启动 HDFS 以及 YARN 集群4. 提交应用四、K8S &            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-11 17:14:12
                            
                                569阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1、Spark运行架构1.1、运行架构        Spark框架的核心是一个计算引擎,整体来说,它采用了标准master-slave的结构。        如下图所示,它展示了一个Spark 执行时的基本结构。图形中的 Driver 表            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-04 20:18:19
                            
                                69阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            spark-submit->SparkSubmit->main->submit->doRunMain->RunMain->通过反射,创建我们编写的主类的实例对象,调用main方法->开始执行我们的代码->初始化sparkContext对象->创建初始rdd->出发action算子->提交job->worker执行任务->            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-01 11:45:07
                            
                                135阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            概念宽依赖:是指子RDD的分区依赖于父RDD的多个分区或所有分区,也就是说存在一个父RDD的一个分区对应一个子RDD的多个分区。  窄依赖:是指父RDD的每一个分区最多被一个子RDD的分区所用,表现为一个父RDD的分区对应于一个子RDD的分区或多个父RDD的分区对应于一个子RDD的分区,也就是说一个父RDD的一个分区不可能对应一个子RDD的多个分区。 stage: s            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-27 13:58:50
                            
                                69阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             sparkUi的4040界面已经有了运行监控指标,为什么我们还要自定义存入redis?1.结合自己的业务,可以将监控页面集成到自己的数据平台内,方便问题查找,邮件告警2.可以在sparkUi的基础上,添加一些自己想要指标统计一、spark的SparkListenersparkListener是一个接口,我们使用时需要自定义监控类实现sparkListener接口中的各种抽象方法,Spa            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-27 10:02:07
                            
                                55阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、Spark on Standalone1.spark集群启动后,Worker向Master注册信息2.spark-submit命令提交程序后,driver和application也会向Master注册信息3.创建SparkContext对象:主要的对象包含DAGScheduler和TaskScheduler4.Driver把Application信息注册给Master后,Master会根据Ap            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-05-29 09:51:23
                            
                                307阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1、Spark的三种运行模式1.1、Local模式单机运行,通常用于测试。1.2、Standalone模式独立运行在一个spark的集群中。1.3、Spark on Yarn/Mesos模式Spark程序运行在资源管理器上,例如YARN/Mesos Spark on Yarn存在两种模式 • yarn-client • yarn-cluster2.安装spark,并启动spark-shell;分别            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-21 06:56:23
                            
                                70阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            ?♂️?♂️ 写在前面 ?本文目录Spark三种运行环境的搭建1、本地模式1.1、本地环境部署1.2、命令行工具1.3、提交应用2、standalone部署模式2.1、安装部署步骤2.2、启动集群2.3、提交应用2.4、提交参数说明2.5、配置历史服务器2.6、高可用3、yarn模式3.1、Yarn模式安装部署3.2、配置历史服务器4、部署模式对比5、常用端口号 Spark三种运行环境的搭建Spa            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-18 21:45:38
                            
                                298阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            在Freescale DPAA QorIQ平台上的启动和non-DPAA QorIQ平台的启动有一些区别:1.non-DPAA QorIQ平台在上电时通过采样配置管脚来决定对CPU的配置(P2020 ( e500核 ) 上电启动及uboot流程|http://bbs.ednchina.com/BLOG_ARTICLE_1988662.HTM),而DPAA QorIQ平台采用RCW (Reset C            
                
         
            
            
            
            在大数据领域,只有深挖数据科学领域,走在学术前沿,才能在底层算法和模型方面走在前面,从而占据领先地位。Spark的这种学术基因,使得它从一开始就在大数据领域建立了一定优势。无论是性能,还是方案的统一性,对比传统的Hadoop,优势都非常明显。Spark提供的基于RDD的一体化解决方案,将MapReduce、Streaming、SQL、Machine Learning、Graph Processin            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-19 09:51:42
                            
                                110阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            第二天 – Spark集群启动流程 – 任务提交流程 – RDD依赖关系 – RDD缓存 – 两个案例 文章目录第二天 -- Spark集群启动流程 -- 任务提交流程 -- RDD依赖关系 -- RDD缓存 -- 两个案例一、Spark集群启动流程二、Spark任务提交流程:三、RDD的依赖关系窄依赖宽依赖Lineage四、RDD的缓存RDD缓存方式、级别五、案例一:基站信号范围六、案例二:学科            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-10 13:19:52
                            
                                112阅读
                            
                                                                             
                 
                
                                
                    