在实际工作中会遇到,最近有需求将产品炸开bom到底层,但是ERP中bom数据在一张表中递归存储的,不循环展开,是无法知道最底层原材料是什么。        在ERP中使用pl/sql甚至sql是可以进行炸BOM的,但是怎么使用spark展开,并且效率要不Oracle更高效的展开,是个问题。展开方法        有以下            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-21 09:22:37
                            
                                148阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            spark读取hdfs的文件是怎么分区的,读取代码如下:val df = sc.textFile("data/wc.txt",3)一.分析spark读取hdfs的文件分区跟hadoop的分区完全相同,因为底层使用的就是Hadoop的TextInputFormat,考虑两内容:1)关于文件分区数量计算:指定的预分区数量是最小分区数量,如:代码中的参数3。真正的分区计算: 每个分区字节数 = 文件字节            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-20 19:30:36
                            
                                99阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            什么是Spark
 基于内存的,用于大规模数据处理(离线计算、实时计算、快速查询(交互式查询))的统一分析引擎。
 Spark特点
 快:
 Spark计算速度是MapReduce计算速度的10-100倍
 易用:(算法多)
 MR支持1种计算模型,Spsark支持更多的算模型。
 通用:
 Spark 能够进行离线计算、交互式查询(快速查询)、实时计算、机器学习、图计算等
 兼容性:
 Spar            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-30 00:47:01
                            
                                84阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            SparkSQL是架构在 Spark 计算框架之上的分布式 Sql 引擎,使用 DataFrame 和 DataSet 承载结构化和半结构化数据来实现数据复杂查询处理,提供的 DSL可以直接使用 scala 语言完成 Sql 查询,同时也使用 thriftserver 提供服务化的 Sql 查询功能。来自:vivo互联网技术 
        目录:1.SparkSql2.连接查询和连接条            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-23 18:02:24
                            
                                58阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            怀念看论文的日子~/打算写一个Spark系列,主要以Scala代码实现,请赐予我力量吧!!!Spark的特点运行速度:Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。官方提供的数据表明,如果数据由磁盘读取,速度是Hadoop MapReduce的10倍以上,如果数据从内存中读取,速度可以高达100多倍。适用性强:能够读取HDFS、Cassandra、HBase、S3和Techyon为            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-17 11:10:59
                            
                                88阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Spark憋了一年半的大招后,发布了3.0版本,新特性主要与Spark SQL和Python相关。这也恰恰说明了大数据方向的两大核心:BI与AI。下面是本次发布的主要特性,包括性能、API、生态升级、数据源、SQL兼容、监控和调试等方面的升级。 本次主要整理了性能方面的优化,包括了自适应查询与动态分区裁剪。1 自适应查询AQE,Adaptive Query Execution,说的简单点就是让Sp            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-27 11:04:55
                            
                                74阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、在spark中查看执行完成的日志spark thrift server的web ui在运行时可以看到sql查询的提交用户,执行sql等信息   但是当这个实例停掉或者异常终止以后,你再去spark history server的webui去查看,发现这部分信息就没有了…… image.png究其原因,原来spark thrift server并没有将这部            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-11 10:35:01
                            
                                191阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            # Spark 查询中的 Spark URL
Spark 是一个强大的分布式计算框架,广泛应用于数据处理和分析。为了方便用户使用 Spark,尤其是在基于集群的环境中,Spark 提供了一种允许用户通过 URL 访问集群的方式。本篇文章将深入探讨 Spark URL 的概念及其在 Spark 查询中的应用,并提供示例代码来加深理解。
## 什么是 Spark URL?
一般而言,Spark            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-08-11 04:03:19
                            
                                194阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            目录SparkSQL概述什么是Spark SQLSpark SQL特点什么是DataFrameRDD与DataFrame区别:什么是DataSetSparkSQL编程新的起始点DataFrame创建SQL语法DSL语法RDD转换为DataFrame&DataFrame转换为RDDDataSet创建DataSetDataFrame转DataSet&DataSet转DataFrameR            
                
         
            
            
            
             文章目录基本函数分区函数重分区函数1. reparation 增加分区函数2. coalesce 减少分区函数3. demo 演示聚合函数1. Scala集合中的聚合函数2. RDD中的聚合函数reduce 函数聚合aggregate 高级聚合函数PairRDDFunctions 聚合函数(1) groupByKey 函数(数据倾斜、内存溢出)(2) reduceByKey、foldByKey             
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-03 15:52:32
                            
                                30阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            之前的文章中提过,structured streaming处理流数据,如果使用聚合,将会有window的概念,对应属性watermark.不知你是否了解过druid,druid处理数据同样有窗口期的概念,用于判断数据何时丢弃.超时的数据将被直接丢弃.  druid的实现比较完善.不管是窗口期的内存数据还是固化到hdfa中的数据,都可以实时联合查询.而structured streaming目前尚未            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-06 15:36:41
                            
                                54阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1.什么是Sparkspark是一种基于内存的快速、通用、可扩展的大数据分析引擎,基于内存的计算框架2.spark的生态?spark core: Spark 的核心 实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。spark sql: 使用sql对历史数据做交互式查询,用来操作结构化数据spark Streaming: 近实时计算 对实时数据进行流式计算的组件s            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-28 13:26:31
                            
                                242阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            ES也是比较火热,在日志数据分析,规则分析等确实很方便,说实话用es stack可以解决很多公司的数据分析需求。 Spark 分析ES的数据,生成的RDD分区数跟什么有关系呢?稍微猜测一下就能想到跟分片数有关,但是具体是什么关系呢?可想的具体关系可能是以下两种:1).就像KafkaRDD的分区与kafka topic分区数的关系一样,一对一。2).ES支持游标查询,那么是不是也可以对比较            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-02 10:09:43
                            
                                151阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            spark是一个基于内存的计算框架。它集成了离线批处理,sql类处理,实时处理/流式计算、机器学习和图计算计算模式。所以spark程序的优化对于spark执行效率来说是非常的重要的。1、1 开发调优开发调优首先需要了解一些spark开发的基本设计原则:(1)RDD lineage 设计;(2)算子的合理使用;(3)特殊的操作使用;在实际开发中需要结合自己的业务,来合理、灵活的开发程序;1、2 原则            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-26 06:26:47
                            
                                12阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            通常情况下,由于mapreduce计算引擎的效率问题,大部分公司使用的基本都是hive数仓+spark计算引擎的方式搭建集群,所以对于spark的三种操作方式来进行简单的分析。在日常开发中,使用最多的方式取决于具体的需求和场景。以下是每种方式的一些常见用途:Spark SQL:适用于需要与SQL语言相关的任务,如执行SQL查询、连接不同数据源、执行数据聚合等操作。Spark SQL提供了一个类似于            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-30 18:41:00
                            
                                77阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一、环境准备flink1.13.5flink-cdc 2.1.1hudi-0.10.0spark-3.1.2、hadoop-2.6.5、hive-1.1.0(cdh5.16版本)jar包:hudi-spark3-bundle_2.12-0.10.0.jarhudi-flink-bundle_2.11-0.10.0.jarflink-sql-connector-mysql-cdc-2.1.1.jar            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-03 10:59:41
                            
                                57阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             触发shuffle的常见算子:distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等。要解决数据倾斜的问题,首先要定位数据倾斜发生在什么地方,首先是哪个stage,直接在Web UI上看就可以,然后查看运行耗时的task,查看数据是否倾斜了! 根据这个task,根据stage划分原理,推算出数据倾            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-02 06:48:02
                            
                                103阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            性能调优:总则:加资源加并行度 简单直接,调节最优的资源配置 RDD架构和持久化当可分配的资源无法达到更多的时候在考虑性能调优从 重剑无锋 到 花拳绣腿分配资源 并行度 RDD架构和缓存调优算子调优调优 、 广播大变量分配哪些资源:executor(task--worker任务数)  cpu per  executor(每个作业的cpu核心数)、memory (可以使用的内存)            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-25 23:38:13
                            
                                46阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Spark SQL & Elasticsearch一、读取二、转换三、写入四、适配分析器方案五、示例 一、读取使用spark-sql读取es数据如下代码所示:SparkSession session = SparkSession.builder()
    .appName("esTest")
    .master("local[*]")
    .getOrCreate();
Da            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-27 06:13:27
                            
                                152阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            分类回归树(\(classification\ and\ regression\ tree,\ CART\))既可用于分类也可用于回归。\(CART\)分类树、\(CART\) 回归树统称 \(CART\)\(CART\) 学习分三步:特征选择、决策树的生成、剪枝。\(CART\) 决策树是二叉树。对 \(CART\) 回归树用均方误差最小化准则,\(CART\) 分类树用基尼系数最小化(\(Gi            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-10 12:20:32
                            
                                209阅读
                            
                                                                             
                 
                
                                
                    