介绍我们主要介绍两种共享变量类型:accumulators聚合信息,broadcast有效的分发large values。当我们的任务涉及到了需要大量的设置时间(比如创建数据库连接或者随机数生成),我们可以把这个设置时间share到多个数据items上面。除了Spark直接支持的语言外,我们还可以使用pipe()方法来与别的编程语言进行沟通,例如使用pipe()方法来访问R语言的库。Accumul
2016.02.05Hadoop学习51CTO是一个神奇的网站!Hadoop安装要点: 1. HADOOP_HOME不可用(/bin和/sbin中可能会生成对于该系统变量的使用),所以用HADOOP_INSTALL来替代 2. 在Linux中配置path是用:冒号进行分隔的 3. which gedit 可以查看gedit的目录 4. 若用Ubuntu或者debain系统,sudo ged
林子老师《Spark编程基础》_第二章scala语言_重点1、scala基础知识1.1基本数据类型和变量基本数据类型字面量(literal)操作符富包装类变量1.2输入输出输入输出写入文件读取文件1.3控制结构1.3.1if控制1.3.2while循环1.3.3for循环1.3.4异常处理1.3.5对循环的控制1.4数据结构1.4.1数组Array1.4.2元组Tuple1.4.3容器Coll
本文主要参考厦门大学林子老师的课程《Spark编程基础》(Scala版)大数据技术概述大数据时代大数据时代技术支撑(存储,计算,网络)存储,存储设备容量越来越大,价格越来越便宜计算,CPU处理能力不断提升(摩尔定律),多核网络,网络带宽提高,分布式处理数据产生方式的变革促使大数据时代的来临,从运营式(沃尔玛大型超市购物系统),到用户原创(微博、微信),再到感知式(物联网)。大数据概念Volume
转载 8月前
271阅读
一、sbt安装(jdk、spark、scala均配置完成)1.下载sbt安装包(注意Scala与sbt版本对应关系)2.创建安装目录等(如下代码)mkdir /home/WBQ/soft/sbt    # 创建安装目录 cd /home/WBQ/soft/sbt tar -zxvf ./sbt-1.8.0.tgz cd /home/WBQ/soft/sbt chown
转载 3月前
76阅读
RDD设计与运行原理RDD结构不存储中间结果,减少磁盘损耗。采用了惰性调用,即在RDD的执行过程中,真正的计算发生在RDD的“行动”操作,对于“行动”之前的所有“转换”操作,Spark只是记录下“转换”操作应用的一些基础数据集以及RDD生成的轨迹,即相互之间的依赖关系,而不会触发真正的计算。Spark操作中经常会用到“键值对RDD”(Pair RDD),用于完成聚合计算。普通RDD里面存储的数据类
目录TT数鸭子题目描述输入描述输出描述样例输入样例输出数据组成思路代码ZJM要抵御宇宙射线题目描述输入描述输出描述样例输入样例输出数据组成思路代码宇宙狗的危机题目描述输入描述输出描述样例输入1样例输出1样例输入2样例输出2数据组成思路代码 TT数鸭子时间限制空间限制1S256MB题目描述这一天,TT因为疫情在家憋得难受,在云吸猫一小时后,TT决定去附近自家的山头游玩。 TT来到一个小湖边,看到了
Scala 入门系列 —— 基础知识数据类型字面量整型字面量浮点型字面量布尔型字面量字符字面量字符串字面量多行字符串插值字符串变量和常量类型推断机制操作符富包装类控制结构分支结构循环结构do{...} while(逻辑表达式)while(逻辑表达式) {...}for(区间 步长 守卫){...}for 循环多个生成器for 推导式跳出循环输入输出输入输出写文件读文件异常控制数据结构数组(Arr
文章目录大数据技术概述1.1 大数据时代1.1.1第三次信息化浪潮1.1.2信息科技为大数据时代提供技术支撑1.1.3数据产生方式的变革促成大数据时代的来临1.2 大数据概念1.2.1 数据量大1.2.2 数据类型繁多1.2.3 处理速度快1.2.4 价值密度低1.3 大数据的影响1.4 大数据关键技术1.5 大数据计算模式1.6 代表性大数据技术1.6.1 Hadoop1.6.2 Spark1
spark应用程序结构  Spark应用程序可分两部分:driver部分和executor部分初始化SparkContext和主体程序A:driver部分      driver部分主要是对SparkContext进行配置、初始化以及关闭。初始化SparkContext是为了构建Spark应用程序的运行环境,在初始化SparkContext,要先导入一些S
目录1、RDD属于Spark Core2、RDD的创建文件加载通过并行集合(数组)创建RDD3、RDD的操作(Transformation)filter(func):高阶函数→参数是函数map(func):一对一的映射flatmap(func):groupByKey():应用于键值对reduceByKey(func)4、RDD的操作(action)count()collect()first()ta
头歌实践教学平台 Linux文件/目录高级管理二第1关:Linux文件/目录相关命令操作(df、du)第2关:Linux文件/目录链接 第1关:Linux文件/目录相关命令操作(df、du)任务描述相关知识 df 命令详解du 命令详解编程要求测试说明任务描述:在Windows系统上查看磁盘的使用情况比较容易,直接打开我的电脑即可看到该磁盘使用情况,而在Linux上没有像Windows那么
一、简介    这次介绍前面没有提及的 Spark 编程的各种进阶特性,会介绍两种类型的共享变量:累加器(accumulator)与广播变量(broadcast variable)。累加器用来对信息进行聚合,而广播变量用来高效分发较大的对象。在已有的 RDD 转化操作的基础上,我们为类似查询数据库这样需要很大配置代价的任务引入了批操作。为了扩展可用的工具范围,还会简单介绍 Spark 与外部程序交
Spark 复习更新至第四章 文章目录Spark 复习第二章1、Spark的主要组成部分和各部分的作用2、Spark架构名词解释:简述Spark架构模型:简述Spark 各种应用程序,作业,任务,阶段 间的关系3、Spark运行流程应用程序提交后首先创建基本运行环境Executor 的优点:DAGScheduler的作用:3、RDDRDD的相关概念RDD的惰性机制RDD的特性及其原因RDD的依赖关
「清华集训 2017」小 Y 和二叉树原题数据好像没有卡这个情况5 1 2 2 1 3 3 2 4 5 1 3 1 3输出是1 2 3 4 5首先考虑一个\(O(n^2)\)的暴力:枚举一个点为根,向下展开树,此时只需要决策左儿子和右儿子的顺序当两个子树都存在时,由于两个子树包含的元素不同,所以可以直接把 两个子树序列首较小 (显然不会出现相同的情况) 的一个放在前面即可实际上我们可以发现,这样得
转载 2023-07-16 22:14:48
78阅读
这篇博客是记录自己开启大数据学习之旅的开端,这是自己从来没有踏入过的领域,之前都是在利用java做一些小系统,增删改查,或者利用Java做一些APP,不过经过一位老师的指导,自己开始慢慢的接触大数据。都说万事开头难,的确,我在搭建Spark单机环境的时候,遇到了各种各样的错误,从昨天下午到现在,我终于搞好了,中间甚至有了挫败感,但是最终还是搭建好了,回头看来,都是小错误,自己没有细心。大数据的课程
转载 1月前
20阅读
文章目录一、Spark作业执行流程(重点)二、RDD编程2.1创建RDD的⼆种⽅式:2.2Transformation算⼦2.3Action算子三、简单算子(必须掌握)3.1 map、mapPartitions、mapPartitionsWithIndex3.1.1 ⽐较map flatMap mapPartitions mapPartitionsWithIndex3.2 flatMap3.3
  以前装Hadoop-3.1.2是跟着厦大林子的详细教程装的,所以遇到的问题不多,自己没怎么思考,导致跟着官网再装了一个Hadoop-2.9.2(为了装Hbase2.2.0)时装了两天,现在把遇到过的问题记下来以免以后再犯。  首先,安装软件首先看官网教程。但官网的教程是很简单的,比如Hadoop的安装。默认会创建hadoop用户;给hadoop权限;所有都在hadoop用户下操作(不然会出错
转载 2023-07-31 17:31:38
317阅读
文章目录前言一、大数据概述 前言大数据导论期末考试内容以林子老师的《大数据技术原理与应用》为主,这里整理一下林子老师慕课上的习题的知识点,帮助和大家进行复习。一、大数据概述第一次信息化浪潮标志是个人计算机、第二次是互联网,第三次信息化浪潮的标志是:云计算、大数据、物联网技术的普及。1Byte(字节) = 8bit; 1KB(Kilobyte,千字节)= 1024 Byte; 1MB(Mega
文章说明本文主要是记录我在安装单虚拟机伪分布式hadoop集群与HBase中遇到的一些问题与处理方式。 主要的安装步骤基于林子老师的大数据软件安装和基础编程。虚拟机我采用的虚拟机工具是VMware WorkStations,没有选用VirtualBox(这里与林子老师的教程不同) 下面是我的虚拟机配置: 需要说明的是网络配置没有用桥接(在多个虚拟机构建伪分布式或者真分布式的时候是需要桥接的,同
转载 2023-10-01 09:48:08
188阅读
  • 1
  • 2
  • 3
  • 4
  • 5