一、上次课回顾二、IDEA整合Maven搭建Spark开发环境三、词频统计案例开发及上传jar包到服务器并准备测试数据四、提交Spark应用程序运行五、词频统计案例迭代之输出结果到HDFS六、词频统计案例迭代之处理多个输入文件七、词频统计案例之输入文件规则匹配八、带排序词频统计案例开发及执行过程剖析九、带排序词频统计案例spark-shell快速测试## 一、上次课回顾上次课博客总结: 1、若
转载 2023-11-06 13:41:02
74阅读
Spark 简介及RDD使用一、Spark 介绍1.1 spark简介1.2 MapReduce VS Spark1.3 计算流程二、Spark 开发环境构建引入开发所需依赖2.1 SparkRDDWordCount(本地)2.2 集群(yarn)2.3 集群(standalone)三、RDD 理论3.1 RDD概述3.2 RDD获取3.2.1 通过读取文件生成3.2.2 从集合中创建RD
转载 2024-06-19 20:57:31
39阅读
Spark使用中,优化和排错是关键环节,理解其参数配置与调试过程对提高Spark作业性能至关重要。在本文中,我们将详细记录处理Spark使用中问题全过程,涵盖背景定位、参数解析、调试步骤、性能调优、排错指南和最佳实践六个部分,以帮助读者更好地掌握Spark使用技巧。 ### 背景定位 在一个大型电商平台数据分析项目中,使用Apache Spark处理用户行为数据以进行实时分析和推荐系
原创 7月前
39阅读
spark使用spark是一款分布式计算框架,用于调度成百上千服务器集群。安装pyspark# os.environ['PYSPARK_PYTHON']='解析器路径' pyspark_python配置解析器路径 import os os.environ['PYSPARK_PYTHON']="D:/dev/python/python3.11.4/python.exe"pip install
背景spark-shell是一个scala编程解释执行环境,可以通过编程方式处理逻辑复杂计算,但对于简单类似sql数据处理,比如分组求和,sql为”select g,count(1) from sometable group by g”,需要写程序是:val hive = neworg.apache.spark.sql.hive.HiveContext(sc)import hive._v
转载 2023-12-28 16:15:36
38阅读
repartition(numPartitions:Int):RDD[T]和coalesce(numPartitions:Int,shuffle:Boolean=false):RDD[T]他们两个都是RDD分区进行重新划分,repartition只是coalesce接口中shuffle为true简易实现,(假设RDD有N个分区,需要重新划分成M个分区)1)、N<M。一般情况下N个分区有数
转载 2023-08-22 10:43:33
1108阅读
常出现使用误区:**误区一:**在driver上创建连接对象(比如网络连接或数据库连接)如果
原创 2023-05-06 15:05:28
61阅读
现在我们已
原创 2022-12-17 00:09:47
184阅读
# SparkgroupByKey使用 ## 引言 Apache Spark是一个开源大数据处理框架,它提供了丰富API和工具,用于处理和分析大规模数据集。其中,groupByKey是Spark中常用操作之一,用于根据键对RDD进行分组。本文将介绍groupByKey使用方法,并给出相应代码示例。 ## 什么是groupByKey groupByKey是Spark一个转换
原创 2024-01-07 06:40:37
154阅读
目录基本概念官方文档概述含义RDD出现原因五大属性以单词统计为例,一张图熟悉RDD当中五大属性解构图RDD弹性RDD特点分区只读依赖缓存checkpoint 基本概念官方文档介绍RDD官方说明:http://spark.apache.org/docs/latest/rdd-programming-guide.html概述含义RDD (Resilient Distributed Datase
Spark简介Spark是加州大学伯克利分校AMP实验室开发通用内存并行计算框架。Spark使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集,具有以下特点。运行速度快:Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。官方提供数据表明,如果数据由磁盘读取,速度是Hadoop MapReduce10倍以上,如果数据从内存
转载 2023-08-08 09:11:22
123阅读
一、SVM支持向量机武林故事我最早接触SVM支持向量机时候,是看到一篇博客,说是武林故事,但是现在我怎么也找不到了,凭借着印象,重述一下这段传说:相传故事发生在古时候,咸亨酒店,热闹非凡店长出了一道题,完成挑战的人可以迎娶小姐只见,桌子上放着黑棋和白棋,挑战者需要寻找一条线将黑棋和白旗完全隔开刚刚开始,棋子比较少,大侠轻松完成了任务但随着棋子增多,大侠百思不得其解,最后怒拍桌子黑棋和白棋
1. window 用在rank 中使用看这样一个需求,求出每个销售人员按照销售金额大小orderidpackage com.waitingfyimport org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.functio...
原创 2022-08-01 20:28:10
308阅读
# Python与Apache Spark结合使用 在大数据时代,数据处理和分析需求与日俱增。Apache Spark作为一款强大数据处理框架,凭借其高速处理能力和灵活处理模型,受到越来越多开发者青睐。本文将介绍如何使用Python与Spark进行基本数据处理,提供详细代码示例,并帮助大家快速上手。 ## Spark简介 Apache Spark是一个通用集群计算框架,具有快
原创 2024-09-30 05:05:40
10阅读
Spark cache用法及其误区:一、Cache用法注意点: (1)cache之后一定不能立即有其它算子,不能直接去接算子。因为在实际工作时候,cache后有算子的话,它每次都会重新触发这个计算过程。(2)cache不是一个action,运行它时候没有执行一个作业。(3)cache缓存如何让它失效:unpersist,它是立即执行。persist是lazy级别的(没有计算),unper
转载 2024-09-26 20:12:44
37阅读
前几天在做大数据期中作业,老师给了我们一堆表(几十kb到几百mb不等),要我们去分析一点东西出来写成报告。我本以为要用自己电脑做,正准备去装环境,老师突然说可以把他们实验室容器暴露给我们, 诶嘿,不用配环境了,舒服呀~ 好了,不多废话,下面进入正题。1、spark与pysparkspark是在内存上进行计算,效率非常高。spark编程语言是scala,pyspark编程语言是pytho
# 使用Sparkrepartition进行数据重分区 在Spark中,repartition是一个非常有用方法,可以用来改变数据集分区数量,从而优化数据处理过程。当数据量较大时,合理调整分区数量可以提高任务并行度,加快数据处理速度。在本文中,我们将介绍如何使用Sparkrepartition方法来对数据集进行重分区,并给出代码示例。 ## 什么是repartition 在Spar
原创 2024-04-02 06:10:26
272阅读
导语经过一段时间学习,对spark认识更深入了一些。有几个知识点一起再来学习一下。1、spark参数理解spark.default.parallelism:该参数用于设置每个stage默认task数量。 spark.sql.shuffle.partitions:对于Spark SQL中shuffle类语句,比如group by、join等,该参数代表了shuffle read task
这里写自定义目录标题合并文件乱码问题saveTextFile压缩问题python只能读本地文件 最近遇到了要把spark数据拿到python中进行再处理过程。 常规操作是df.write.format(“csv”).mode(“overwrite”).save("./test.csv")或者是rdd.saveAsTextFile("./test.text")本来以为常规保存之后,就能够
转载 2023-09-15 22:33:57
89阅读
一、sparkContext与sparkSession区别任何Spark程序都是SparkContext开始,SparkContext初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置各种参数,sparkContext只能在driver机器上面启动;SparkSession: SparkSession实质上是SQLContext和HiveContext组合,S
转载 2023-07-15 12:20:37
55阅读
  • 1
  • 2
  • 3
  • 4
  • 5