1、设置块大小 sc.hadoopConfiguration.setLong(fs.local.block.size,128x1024x1024) 2、读取csv 1 val schema = "name string, age int, job string" 2 val df3 = spark. ...
转载 2021-07-12 19:01:00
93阅读
学习笔记Spark简介spark 可以很容易和yarn结合,直接调用HDFS、Hbase上面的数据,和hadoop结合。配置很容易。spark发展迅猛,框架比hadoop更加灵活实用。减少了延时处理,提高性能效率实用灵活性。也可以与hadoop切实相互结合。spark核心部分分为RDD。Spark SQL、Spark Streaming、MLlib、GraphX、Sp
转载 2023-12-05 21:22:36
64阅读
    声明: 1. 本文为我的个人复习总结, 并非那种从零基础开始普及知识 内容详细全面, 言辞官方的文章               2. 由于是个人总结, 所以用最精简的话语来写文章  &nbs
转载 2024-01-03 09:58:53
79阅读
1点赞
一、大数据架构 并发计算:并行计算:很少会说并发计算,一般都是说并行计算,但是并行计算用的是并发技术。并发更偏向于底层。并发通常指的是单机上的并发运行,通过多线程来实现。而并行计算的范围更广,他是散布到集群上的分布式计算。Spark内存计算比hadoop快100倍,磁盘计算快10倍,在worker节点主要基于内存进行计算,避免了不必要的磁盘io。二、Spark模块Spark是没有分布式存
转载 2023-08-21 11:17:07
72阅读
网页访问时候 没有打开 注意防火墙! 启动park shell bin下面的spark-shell 这样启动的是单机版的 可以看到没有接入集群中: 应该这么玩儿 用park协议 spark://192.168.94.132:7077 地址 协议 ./spark-shell --mster spark
转载 2017-09-15 22:10:00
47阅读
cd 到hadoop中 然后格式化 进入到 bin下 找到 hdfs 然后看看里面有哈参数: ./hdfs namenode -format 格式化 然后启动 sbin/start-dfs.sh hdfs的关系界面 http://192.168.94.132:50070/ 创建文本: 创建个目录 h
转载 2017-09-16 11:01:00
82阅读
安装jdk 下载spark安装包 解压 重点来了: 配置 spark: 进入 conf 》 spark-env.sh.template文件 cd conf/ mv spark-env.sh.template spark-env.sh vi spark-env.sh 添加: 在该配置文件中添加如下配置
转载 2017-09-15 20:46:00
268阅读
  作者:csj 回主目录:2017 年学习记录和总结   1 安装spark及简介 spark 是用scala语言编写的一套分布式内存计算系统,他的核心抽象模型是RDD(弹性分布式数据集),围绕rdd构件了一系列分布式API 可以直接对数据集进行分布式处理。 相对于mapreduce上的批量计算,跌代计算,以及基于hive的sql查询,spark可以带来1到2个数量级的效力提 升。 spark
转载 2021-07-23 11:34:19
188阅读
spark原理driver创建sparkContext,sparkContext向master申请资源,申请完资源之后,
原创 2023-01-06 15:49:21
76阅读
spark优化: 一、代码优化: 1.避免创建重复的RDD 2.对多次使用的rdd进行缓存 缓存级别一般使用MEMORY_AND_DISK_SER 3.使用高性能的算子(reducebykey,foreachpatition[一般用于和外部数据库进行连接时],coalelce【合并小文件】) 4.避 ...
转载 2021-07-28 23:20:00
238阅读
2评论
Storm和SparkStreaming区别stormsparkStreaming纯实时的流式处理,来一条数据就...
转载 2022-09-02 18:22:42
99阅读
一、SparkCoreSpark是一个计算框架,可以基于内存处理数据Spark & MR区别1.Spark可以基于内存处理数据,MR基于磁盘处理数据2.Spark有DAG有向无环图Spark技术栈Spark Core, SQL,StreamingHadoop MR,Hive, Storm ,HDFS,YarnSpark 运行模式Local 多用于本
转载 2023-08-10 02:13:28
221阅读
[TOC]1 前言其实在之前的文章《Spark笔记整理(五):Spark RDD持久化、广播变量和累加器》中也有类似的测试,不过当时做的测试仅仅是在本地跑代码,并以Java/Scala代码通过设置开始时间和结束时间的方式来进行统计测试,其实不够准确,最好的方式就是把Spark应用部署到集群中,通过观察Spark UI的统计信息来获取时间,这样会更准备,尤其是希望观察RDD缓存时对性能带来的提升。为
转载 2024-03-30 20:56:30
34阅读
Spark学习之RDD编程(2)1. Spark中的RDD是一个不可变的分布式对象集合。2. 在Spark中数据的操作不外乎创建RDD、转化已有的RDD以及调用RDD操作进行求值。3. 创建RDD:1)读取一个外部数据集2)在驱动器程序里分发驱动器程序中的对象集合。4. RDD支持的操作:1)转换操作,由一个RDD生成一个新的RDD。 2)行动操作,对RDD进行计算结果,并把结果返回到驱动器程序中
转载 2024-07-19 23:44:54
50阅读
文章目录Spark CoreSpark运行环境Yarn模式Spark运行架构核心组件核心概念Executor与Core并行度(Parallelism)提交流程Yarn Cluster模式提交的时候参数Spark核心编程SparkSQLSparkSQL核心编程DataFrameDataSetSparkStreaming知识点SparkStreamingSparkstreaming的概念背压机制sp
转载 2023-11-29 16:03:26
37阅读
官网上最清晰 sc 启动spark时候就已经初始化好了 sc.textFile后 会产生一个rdd spark 的算子分为两类 一类 Transformation 转换 一类 Action 动作 Transformation 延迟执行 记录元数据信息 当计算任务触发Action时候才会真正的开始计算
转载 2017-09-16 11:31:00
41阅读
2评论
文章目录前言概述Spark和MR的数据处理流程对比Spark的组成示意图Spark模块Spark特点Spark的运行模式Spark官方测试案例SparkWebUISpark通用运行简易流程Spark核心概念RDD特点WordCount案例数据分区算子转换算子行动算子序列化血缘关系:RDD的持久化和检查点:RDD的分区器:文件数据的读取和存储广播变量:累加器:自定义累加器:案例:练习: 计算每个省
1、创建工程在这里添加 spark core包,添加bulid 插件。<groupId>com.ypl.bigdata</groupId> // 这里添写包名称 <artifactId>spark-200226</artifactId> // 这里是项目名称 <version>1.0-SNAPSHOT</version>//
...
转载 2017-11-06 14:30:00
186阅读
Spark简介spark 可以很容易和yarn结合,直接调用HDFS、Hbase上面的数据,和hado
原创 2022-12-28 15:08:00
121阅读
  • 1
  • 2
  • 3
  • 4
  • 5