官网 http://spark.apache.org/ 安装:http://dblab.xmu.edu.cn/blog/spark-quick-start-guide/ 教程 http://www.code123.cc/1510.html 性能对比:http://www.cnblogs.com/je
原创 2021-07-23 11:42:37
115阅读
Spark运行的时候,采用的是主从结构,有一个节点负责中央协调, 调度各个分布式工作节点。这个中央协调节点被称为驱动器( Driver) 节点。与之对应的工作节点被称为执行器( executor) 节点。 所有的 Spark 程序都遵循同样的结构:程序从输入数据创建一系列 RDD, 再使用转化操作派
转载 2017-04-10 13:53:00
618阅读
2评论
许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用、训练机器学习模型的应用, 还有自动检测异常的应用。Spark Streaming 是 Spark 为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的 API 来编写流式计算应用,这样就可以大量重用批处理应用的技术甚至代码。
转载 2017-04-25 23:33:00
702阅读
2评论
执行启动命令 jar 、wordcount sparkSubmit: yarnclient ->submitApplication-> ResourceManage bin/java 在NodeManager 启动进程,ApplicationMaster ApplicationMaster进程启动后 ...
转载 2021-07-23 21:18:00
98阅读
2评论
###配置spark on yarn只需要配置如下参数即可。使用yarn模式的时候,不需要启动master和worker了只需要启动hdfs和yarn即可Yarn运行任务的过程:
原创 2022-01-14 14:14:41
42阅读
1、window系统上开发,使用winutil.exe报错问题在Intellij 上运行hadoop报错:Exceptionin thread "main" java.lang.UnsatisfiedLinkError:org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray(II[BI[BII
转载 2022-04-18 13:41:57
118阅读
这个章节我们将下载Spark并用本地模式(local mode)在单机上运行。这个章节适合任何初学者阅读,当然包括数据科学家和工程师。     你可以用Python、Java或Scala编写Spark应用,要看懂本教程中的代码你不需要精通某一种语言,但是你应该了解一种语言的基本语法。我们将尽可能用包含这三种语言版的例子(译者注:以下将主要翻译Scala版,以节约时间)。     Spark本身是用
原创 2021-02-13 20:38:38
397阅读
 #flatMapval favMovies = sc.parallelize(List("Pulp Fiction","Requiem for a dream","Aclockwork Orange"));favMovies.flatMap(movieTitle=>movieTitle.split(" ")).collect() #sampleval data = s...
原创 2021-08-24 19:24:21
99阅读
 #flatMapval favMovies = sc.parallelize(List("Pulp Fiction","Requiem for a dream","
原创 2022-02-18 14:51:18
53阅读
学习感悟(1)学习一定要敲,感觉很简单,但是也要敲一敲,不要眼高手低(2)一定要
原创 2022-09-13 13:18:58
277阅读
Spark通过减少磁盘IO来达到性能的提升 为了适应迭代计算,Spark将经常被
原创 2022-06-01 05:22:48
359阅读
Spark架构采用了分布式计算中的Master-Slave模型。Master是对应集群中的含有Master进程的节点,Slave是集群中含有Worker进程的节点。Master作为整个集群的控制器,负责整个集群的正常运行;Worker相当于是计算节点,接收主节点命令与进行状态汇报;...
Spark SQL特点1、易整合整合SQL查询和Spark编程2、统一的数据访问方式使用相同方式连接不同的数据源3、继承Hive在已有的仓库上直接运行SQL或者HQL4、标准的连接方式通过JDBC或者ODBCDataFrame分布式数据容器schema 数据的结构信息(类似于desc table)支持嵌套数据类型 struct array map从API易用性,Dat...
原创 2021-08-05 13:54:23
173阅读
想要调试源码,还是要放到eclipse里面去。先生成eclipse项目,下载依赖包victor@victor-ubuntu:~/software/incubator-spark-0.8.1-incubating$ mvn eclipse:eclipse[INFO] Scanning for proj...
转载 2015-03-27 17:46:00
158阅读
2评论
1.spark-shell 一般用来写脚本验证程序正确性;开发数据一般用集成工具idea,python等 ...
转载 2021-09-08 15:54:00
217阅读
2评论
共享变量(广播变量、累加变量)Spark一个非常重要的特性就是共享变量。默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。广播变量:(一个worker共享)每个节点拷贝一份,更大的用处是优化性能,减少网络传输以及内存消耗。累加变量:可以让多个task共同操作一份变量,主要可以进行累加操作但是task只能对Accumulator进行累加...
原创 2022-01-14 14:14:54
126阅读
DataFrameNaFunctions用来对DataFrame中值为null或NaN的列做处理,处理分为三种类型: drop:根据条件丢弃含有null或NaN的行 fill:根据条件使用指定值填充值为null或NaN的列,相当于设置默认值 replace:根据条件替换列值 下面是针对每种处理方式的详细解释:package cc11001100.spark.dataset.DataFram...
原创 2021-07-27 13:44:35
222阅读
学习感悟(1)配置环境最费劲(2)动手写,动手写,动手写WordCountpackage wordcountimport org.apache.spark.{SparkConf, SparkContext}/** * @author CBeann * @create 2019-08-10 18:02 */object WordCount { def main(args: Array[Str
原创 2022-09-13 11:44:57
145阅读
Spark 支持在集群范围内将数据集缓存至每
原创 2022-06-01 05:09:02
155阅读
下载好压缩包,放在一个自己能找到的文件夹中,以便之后使用。
转载 2天前
377阅读
  • 1
  • 2
  • 3
  • 4
  • 5