spark 读取hive中的数据scala> import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.sql.hive.HiveContext
scala> val hiveContext = new HiveContext(sc)
//hive中的feigu数据库中表stud_info
scala>            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-29 13:57:06
                            
                                36阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            SparkSQL和Hive的整合,是一种比较常见的关联处理方式,SparkSQL加载Hive中的数据进行业务处理,同时将计算结果落地回Hive中。exampleidea新建项目,并把hive-site.xml,core-site.xml,hdfs-site.xml文件下载到Resources文件夹下.读取数据object HiveDemo extends App{
  private val se            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-20 13:45:17
                            
                                103阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            新词发现并不是一个新的课题,但最有意思的一点是如果采用无监督的算法,可以完全脱离人工的经验由算法自动找到有语意的“词语”,而不是胡乱拼凑的汉字片段(归因于算法的有效性和语料本身是由有意义的词语构成的)。本文参考了matrix67的一篇文章,互联网时代的社会语言学:基于SNS的文本数据挖掘,采用无监督方法来发现新词,基本原理就是通过N-gram找到可能的词,然后计算这些词的词频、紧密度和自由度,最终            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-26 09:26:40
                            
                                31阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1、概念 RDD内部并行计算的计算单元。尽可能规避Shuffle过程,降低网络开销。 RDD的数据集在逻辑上被划分为多个分片,每一个分片成为分区,分区的格式决定了并行计算的粒度。每个分区的数值计算都是在一个任务中进行的,因此任务的个数是由RDD(准确来说是作业最后一个RDD)的分区数决定的。2、原理 MapReduce里面的网络传输主要在Shuffle阶段,Shuff            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-05 12:51:43
                            
                                232阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            # Spark 实现并行的原理
Apache Spark 是一个强大的分布式计算框架,广泛应用于大规模数据处理和机器学习。其实现并行运算的原理主要通过两个核心概念:RDD(弹性分布式数据集)和任务调度(Task Scheduling)。
## 1. RDD 的基本概念
RDD 是 Spark 的基本数据抽象,它是一个不可变的分布式集合,可以并行处理。用户可以通过对 RDD 的转换操作(如 `            
                
         
            
            
            
            1.RDD介绍: 
 
       RDD,弹性分布式数据集,即分布式的元素集合。在spark中,对所有数据的操作不外乎是创建RDD、转化已有的RDD以及调用RDD操作进行求值。在这一切的背后,Spark会自动将RDD中的数据分发到集群中,并将操作并行化。 
   
       Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-10-22 14:47:55
                            
                                8阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Spark难点|Join的实现原理大数据技术与架构大数据技术与架构Join背景当前SparkSQL支持三种join算法:ShuffleHashJoin、BroadcastHashJoin以及SortMergeJoin。其中前两者归根到底都属于HashJoin,只不过载HashJoin之前需要先Shuffle还是先Broadcast。其实,HashJoin算法来自于传统数据库,而Shuffle和Br            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-04-03 22:11:17
                            
                                240阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Join背景当前SparkSQL支持三种join算法:Shuffle Hash Join、Broadcast Hash Join以及Sort Merge Join。其中前两者归根到底都属于Hash Join,只不过载Hash Join之前需要先Shuffle还是先Broadcast。其实,Hash Join算法来自于传统数据库,而Shuffle和Broadcast是大数据在分布式情况下的概念,两...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-06-10 20:58:59
                            
                                733阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Join背景当前SparkSQL支持三种join算法:Shuffle Hash Join、Broadcast Hash Join以及Sort Merge Join。其中前两者归根到底都属于Hash Join,只不过载Hash Join之前需要先Shuffle还是先Broadcast。其实,Hash Join算法来自于传统数据库,而Shuffle和Broadcast是大数据在分布式情况下的概念,两...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-06-10 20:59:00
                            
                                1408阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Join背景当前SparkSQL支持三种join算法:Shuffle Hash Join、Broadcast Hash Join以及Sort Merge Join。其中前...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-06-10 20:59:02
                            
                                218阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Join背景当前SparkSQL支持三种join算法:Shuffle Hash Join、Broadcast Hash Join以及Sort Merge Join。其中前...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-06-10 20:59:01
                            
                                222阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一.本地向量  有如下几个类: Vector(基类),DenseVector,SparseVector,Vectors(工厂方法,推荐用)工厂模式是:定义一个用于创建对象的接口,让子类决定实例化哪一个类,使一个类的实例化延迟到子类import org.apache.spark.mllib.linalg.{Vectors,Vector}    # linalg is short            
                
         
            
            
            
            Spark常用代码 文章目录Spark常用代码1. 创建RDD方法2. 专门读取小文件wholeTextFiles3. rdd的分区数4. Transformation函数以及Action函数4.1 Transformation函数4.2 Action函数4.3 其他常见的函数5. 重分区函数6. 聚合函数6.1 基础聚合函数6.2 Key-Value类型的聚合函数6.3 join相关操作7. 搜            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-28 22:59:13
                            
                                70阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Spark基本工作原理Spark基本工作原理分布式首先我们在本地上编写spark程序,然后必须在某台能够链接spark的机器上提交该spark程序然后spark集群从hadoop:HDFS、Hive上面读取数据,分布在spark的节点上对节点上的数据进行处理,处理后的数据,可能会移动到其他节点中主要基于内存数据都是存到各个节点的内存中所有的计算操作都是针对多个节点上的数据,进行并行计算操作迭代式计            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-21 20:37:00
                            
                                102阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            几年前,看到过有个牛人用HTML5绘制了浪漫的爱心表白动画。地址在这:浪漫程序员 HTML5爱心表白动画。发现原来程序员也是可以很浪……漫…..的(PS:刚过520,被妹子骂不够浪漫)。那么在Android怎么打造如此这个效果呢?参考了一下前面HTML5的算法,在Android中实现了类似的效果。先贴上最终效果图:生成心形线心形线的表达式可以参考:桃心线。里面对桃心线的表达式解析的挺好。可以通过使            
                
         
            
            
            
            1.单例模式:确保一个类只有一个实例,并提供一个全局访问点来访问这个唯一的实例。对于单例模式,在单例类的内部创建它的唯一实例,并通过静态方法getInstance()让客户端可以使用它的唯一实例;为了防止在外部对单例类实例化,将其构造函数的可见性设置为private,在单例类内部定义一个singleton类型的静态对象作为供外部共享访问的唯一实例。/**这种单例模式示例有问题存在,下文中会做完善,            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-23 23:00:34
                            
                                46阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            DAGScheduler概述:是一个面向Stage层面的调度器;主要入参有:dagScheduler.runJob(rdd, cleanedFunc, partitions, callSite, allowLocal,resultHandler, localProperties.get)rdd: final RDD;cleanedFunc: 计算每个分区的函数;resultHander:            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-30 20:13:08
                            
                                88阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            RDD操作闭包外部变量原则   RDD相关操作都需要传入自定义闭包函数(closure),如果这个函数需要访问外部变量,那么需要遵循一定的规则,否则会抛出运行时异常。闭包函数传入到节点时,需要经过下面的步骤:驱动程序,通过反射,运行时找到闭包访问的所有变量,并封成一个对象,然后序列化该对象将序列化后的对象通过网络传输到worker节点worker节点反序列化闭包对象worker            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-05-31 10:29:06
                            
                                54阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            # Spark Connector JDBC实现原理
## 引言
在大数据领域中,Apache Spark是一个广泛使用的分布式计算框架。Spark Connector JDBC是Spark提供的一个用于与关系型数据库进行连接的工具,可以方便地将Spark与各种数据库进行集成。本文将介绍Spark Connector JDBC的实现原理,并提供相应的代码示例进行说明。
## Spark Co            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-01-09 21:18:38
                            
                                214阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            队列是一种线性数据结构,是一种运算受限的线性表,只允许在队尾插入,在队头删除。运算规则是先进先出。恰好和栈相反。栈是先进后出。因为栈只在栈顶做删除和插入。队列按照存储结构可以分为顺序队列和链式队列。顺序队列采用数组实现,链式队列采用节点的方式实现。//顺序队列  1 package queue;
 2 //1.队列是一种运算受限的线性表,运算规则是先进先出。只能在队头和队尾进行操作
 3 //2.            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-07 23:51:02
                            
                                126阅读