BigDL是基于Apache Spark的分布式深度学习框架,借助现有的Spark集群来运行深度学习计算,并简化存储在Hadoop中的大数据集的数据加载。1.1丰富的深度学习支持。模拟Torch之后,BigDL为深入学习提供全面支持,包括数字计算(通过Tensor)和高级神经网络 ; 此外,用户可以使用BigDL将预先训练好的Caffe或Torch模型加载到Spark程序中。1.2极高的性能。为了            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-09 20:12:38
                            
                                53阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一、数据源文件下载二、问题描述请根据给定的实验数据,在idea中通过Scala编程来计算以下内容:(1)该系总共有多少学生;(2)该系共开设来多少门课程;(3)Tom同学的总成绩平均分是多少;(4)求每名同学的选修的课程门数;(5)该系DataBase课程共有多少人选修;(6)各门课程的平均分是多少;(7)使用累加器计算共有多少人选了DataBase这门课。三、代码import org.apach            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-12 07:43:10
                            
                                47阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            开始搭建的jdk这些自不必说,本文只是简单的介绍安装scala/spark  1.下载scala安装包  去官网下载tgz包,解压在/opt/scala/下,设置环境变量: export SCALA_HOME=/opt/scala/scala-2.10.3
export PATH=$SCALA_HOME/bin:$PATH
export SCALA_HOME=/opt/scala/scala-            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-05 19:47:39
                            
                                80阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            BigDl主要实现了各种深度学习神经网络算法,当然也可以构建简单的神经网络。 一、下载依            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-04-13 10:54:07
                            
                                231阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、lenet模型训练和测试(一)把linux 本地图片转换成sequenceFile,并上传到HDFS上存            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                            精选
                                                        
                            2023-04-13 10:49:59
                            
                                628阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Hue中spark 实现提交运行源码过程一.简介1.1 Hue notebook在Hue3.8版本之前,spark是以UI组件进行展示的。在3.8版本之后,为了支持不同语言例如python,scala并提供一个类似REPL(类似于一个终端可以编辑所有变成语言)的环境。Hue提供了notebook组件并将关于spark的运行逻辑放置在notebook UI中执行。为了执行Spark作业,需要安装Li            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-02 22:34:57
                            
                                71阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一、版本说明Spark 针对 Kafka 的不同版本,提供了两套整合方案:spark-streaming-kafka-0-8 和 spark-streaming-kafka-0-10,其主要区别如下:spark-streaming-kafka-0-8spark-streaming-kafka-0-10Kafka 版本0.8.2.1 or higher0.10.0 or higherAP 状态Dep            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-06 18:23:34
                            
                                62阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            AS WE ALL KNOW,学机器学习的一般都是从python+sklearn开始学,适用于数据量不大的场景(这里就别计较“不大”具体指标是啥了,哈哈)数据量大了,就需要用到其他技术了,如:spark, tensorflow,当然也有其他技术,此处略过一坨字... 先来看看如何让这3个集成起来吧(WINDOWS环境):pycharm(python开发环境), pyspark.            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-13 18:09:29
                            
                                173阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            前言前面介绍了TinkerPop集成Neo4j的配置方法,并且实现了HA操作。这里有一个突出问题就是不管是使用Neo4j,还是自带的TinkerGraph都不可避免的面临一个问题——大数据量场景,也即分布式问题。鉴于此,Tinkerpop还提供了和Hadoop+Spark的集成解决方案,从而解决单节点问题。但是由于Spark中的数据一致性问题,不能修改数据,所以这种方案不能修改数据,也不能新增数据            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-14 19:13:58
                            
                                55阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            上篇文章简单介绍了ES-Hadoop插件的功能和使用场景,本篇就来看下如何使用ES-Hadoop里面的ES-Spark插件,来完成使用spark想es里面大批量插入数据。 
这里说明下ES-Hadoop是一个fat的maven依赖,也就是引入这个包会导入许多额外的依赖,不建议这么搞,除非是测试为了方便用的,实际情况是ES也单独提供了每个不同框架的mini包            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-05 12:54:45
                            
                                149阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一、Spark 架构与优化器1.Spark架构 (重点)2.Spark优化器二、Spark+SQL的API (重点)1.DataSet简介2.DataFrame简介3.RDD与DF/DS的创建4.常用操作5、类型转换三、Spark外部数据源操作 (重点)1.Parquet文件(默认文件)2.Hive表3.MySQL表(MySQL)四、Spark+SQL的函数1.内置函数(org.apache.sp            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-30 09:54:38
                            
                                114阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            必要设置es.resourceElasticsearch资源位置,在该位置读取和写入数据。需要格式 <index>/<type>es.resource.read(默认为es.resource)用于读取(但不写入)数据的Elasticsearch资源。在同一作业中将数据读取和写入不同的Elasticsearch索引时很有用。通常自动设置(“ Map / Reduce”模块除外            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-23 12:48:59
                            
                                66阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            最近在考虑Spark在消费Kafka 分区数据的过程中究竟反生了什么? 因为比较疑惑现有系统架构会不会遭遇这方面的瓶颈,遂决定去搞一把,一探究竟.关于Kafka做一下简短的总结,Kafka可参考附件1:多个TOPIC分布在多个Broker中每个TOPIC的数据以分区的方式分布在多个Broker中一个分区同时只能被一个Consumer消费同一个TOPIC允许被不同的Group重复消费,Group内不            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-10 17:28:22
                            
                                66阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1 版本要求Spark版本:spark-2.3.0-bin-hadoop2.7
Phoenix版本:apache-phoenix-4.14.1-HBase-1.4-bin
HBASE版本:hbase-1.4.2
上面的版本必须是对应的,否则会报错2 Phoenix + HBase + Spark整合A:安装HBASE,这里略,默认都会 B:Phoenix + HBASE整合,参考:,要注意的是支            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-14 10:56:27
                            
                                87阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            6-7,使用spark-scala调用tensorflow2.0训练好的模型本篇文章介绍在spark中调用训练好的tensorflow模型进行预测的方法。本文内容的学习需要一定的spark和scala基础。如果使用pyspark的话会比较简单,只需要在每个excutor上用Python加载模型分别预测就可以了。但工程上为了性能考虑,通常使用的是scala版本的spark。本篇文章我们通过Tenso            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-25 22:06:09
                            
                                126阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            最近刚开始接触大数据,一个日志分析系统,需要用Spark开发,Elasticsearch作为数据库来使用。所以第一步要解决的就是怎么从Spark去取Elasticsearch上的数据,下面是软件的版本信息。(基本原则是开发和集群的版本都要一致)开发环境 jdk: 1.8.0_91scala: 2.11.8spark: 2.1.0IntelliJ IDEA 2017.1.1(集成开发环境)集群环境            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-11 10:17:30
                            
                                102阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            TensorFlow是谷歌提供的开源深度学习框架TensorFlowOnSpark: 是雅虎提供的集成到Spark上的深度学习框架鉴于我们使用的是Spark核心计算框架,现在搭建TensorFlow ON Hadoop Yarn开发环境整体搭建步骤,https://github.com/yahoo/TensorFlowOnSpark/wiki/GetStarted_YARN网站上有详细介绍,主要            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-16 21:44:37
                            
                                121阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            What is BigDLBigDL是一个的分布式学习框架,于2016年12月30号进行开源,它是专门为Apache Spark而写的深度学习框架。Apache Spark则是目前非常流行,用途广泛的大数据处理系统。Spark的最底层是它的核心,往上是大量的接口。最上层是类似DataFrame的处理数据接口,中间是一些功能性的部分,比如常用的SQL、SparkR、Strea ming这些常用的库和            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-05-06 15:25:40
                            
                                233阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            7.1  R-CNN        R-CNN首先从输入图像中选取若干提议区域(找出可能的感兴趣区域),并标注它们的类别和边界框(如偏移量),用卷积神经网络对每个提议区域进行前向传播以抽取其特征,用每个提议区域的特征来预测类别和边界框。该模型如下图所示:      &n            
                
         
            
            
            
                Ensemble learning 中文名叫做集成学习,它并不是一个单独的机器学习算法,而是将很多的机器学习算法结合在一起,我们把组成集成学习的算法叫做“个体学习器”。在集成学习器当中,个体学习器都相同,那么这些个体学习器可以叫做“基学习器”。个体学习器组合在一起形成的集成学习,常常能够使得泛化性能提高,这对于“弱学习器”的提高尤为明显。弱学习器指的