王家亲授《DT大数据梦工厂》大数据实战视频“Scala深入浅出实战经典”视频、音频和PPT下载!第66讲:Scala并发编程实战初体验及其在Spark源码中的应用解析百度云:http://pan.baidu.com/s/1pJ5jzHx腾讯微云:http://url.cn/aSawrm360云盘:http://yunpan.cn/cctL3QYACaVNa  访问密码&nbs
原创 2015-07-26 11:54:36
873阅读
王加-大数据学习资料
为什么会产生大数据技术? 1、一些数据的记录是以模拟形式存在,或者以数据形式存在,但是存贮在本地,不是公开数据资源,没有开放给互联网用户,例如音乐、照片、视频、监控录像等影音资料。现在这些数据不但数据量巨大,并且共享到了互联网上,面对所有互联网用户,其数量之大是前所未有。 2、移动互联网出现后,移动 ...
转载 2021-09-07 16:19:00
38阅读
2评论
Spark基于RDD近乎完美的实现了分布式内存的抽象,且能够基于位置感知性调度、自动容错、负载均衡和高度的可扩展性,Spark中允许用户在执行多个查询时显式的将工作集缓存起来以供后续查询重用,这极大的提高了查询的速度。
原创 2015-12-15 23:22:47
415阅读
腾讯的Spark集群已经达到8000台的规模,是目前已知最大的Spark集群,每天运行超过1万各种作业。
原创 2015-12-15 23:21:38
522阅读
Spark一体化多元化的解决方案极大的减少了开发和维护的人力成本和部署平台的物力成本,并在性能方面有极大的优势,特别适合于迭代计算,例如机器学习和和图计算;同时Spark对Scala和Python交互式shell的支持也极大的方便了通过shell直接来使用Spark集群来验证解决问题的方法,这对于原型开发至关重要,对数据分析人员有着无法拒绝的吸引力!
原创 2015-12-15 23:24:13
1021阅读
Spark中RDD采用高度受限的分布式共享内存,且新的RDD的产生只能够通过其它RDD上的批量操作来创建,依赖于以RDD的Lineage为核心的容错处理,在迭代计算方面比Hadoop快20多倍,同时还可以在5~7秒内交互式的查询TB级别的数据集。
原创 2015-12-15 23:25:21
477阅读
Spark RDD是被分区的,对于RDD来说,每个分区都会被一个计算任务处理,并决定并行计算的粒度;RD的每次转换操作都会生成新的RDD,在生成RDD时候,一般可以指定分区的数量,如果不指定分区数量,当RDD从集合创建时候,则默认为该程序所分配到的资源的CPU核数,如果是从HDFS文件创建,默认为文件的Block数。
原创 2015-12-15 23:26:18
701阅读
基于RDD的整个计算过程都是发生在Worker中的Executor中的。RDD支持三种类型的操作:Transformation、Action以及Persist和CheckPoint为代表的控制类型的操作,RDD一般会从外部数据源读取数据,经过多次RDD的Transformation(中间为了容错和提高效率,有可能使用Persist和CheckPoint),最终通过Action类型的操作一般会把结果
原创 2015-12-15 23:27:03
673阅读
RDD的所有Transformation操作都是Lazy级别的,实际上这些Transformation级别操作的RDD在发生Action操作之前只是仅仅被记录会作用在基础数据集上而已,只有当Driver需要返回结果的时候,这些Transformation类型的RDD才会真正作用数据集,基于这样设计的调度模式和运行模式让Spark更加有效率的运行。
原创 2015-12-15 23:27:56
432阅读
百度公司是一个典型的大数据公司,公司几乎所有的业务都与大数据密切相关,比如搜索引擎、广告等。在百度公司大数据首席架构师仕鼎看来,大数据业务的发展需要多种人才,包括数据科学家、数据架构师以及数据工程师等。  在这里,数据科学家是一种狭义上的定义,指的是那些具有数据分析能力,精通各类算法,直接处理数据的人员。经数据科学家加工和分析后得到的信息可以作为业务处理流程的输入数据,用来驱动业务的发展。  数
原创 2013-10-28 09:46:30
772阅读
SparkContext是用户程序和Spark交互的接口,它会负责连接到Spark集群,并且根据系统默认配置和用户设置来申请计算资源,完成RDD的创建等工作。
原创 2015-12-15 23:30:54
533阅读
RDD的saveAsTextFile方法会首先生成一个MapPartitionsRDD,该RDD通过雕工PairRDDFunctions的saveAsHadoopDataset方法向HDFS等输出RDD数据的内容,并在在最后调用SparkContext的runJob来真正的向Spark集群提交计算任务。
原创 2015-12-15 23:31:46
499阅读
RDD在创建子RDD的时候,会通过Dependency来定义他们之间的关系,通过Dependency,子RDD可以获得parent RDD(s)和parent RDD(s)的Partition(s).
原创 2015-12-16 00:01:59
594阅读
Spark Checkpoint通过将RDD写入Disk做检查点,是Spark lineage容错的辅助,lineage过长会造成容错成本过高,这时候在中间阶段做检查点容错,如果之后有节点出现问题而丢失分区,从做检查点的RDD开始重做Lineage,就会减少开销。Checkpoint主要适用于以下两种情况:1. DAG中的Lineage过长,如果重算时会开销太大,例如
原创 2015-12-16 00:06:09
577阅读
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~本文由云加社区技术沙龙发表于云+社区专栏谭安,腾讯高级工程师,2015年加入腾讯,8年互联网从业经历,从事大数据平台与产品开发相关工作;先后参与广告、金融等领域产品项目,目前负责行为预测解决方案,帮助客户盘活现有客群、挖掘潜在高价值新客。目前我们的产品包括:智能客服、大数据套件、腾讯移动分析、腾讯移动推送等。商业是一个价值交换的事情,并不
原创 2018-09-27 11:46:24
246阅读
持久化(包含Memory、Disk、Tachyon等类型)是Spark构建迭代算法和快速交互式查询的关键,当通过persist对一个RDD持久化后,每一个节点都将把计算的分片结果保存在内存或者磁盘或者Tachyon上,并且对此数据集或者衍生出来的数据集进行的其它Action级别的炒作都可以重用当前RDD的计算结果,这是的后续的的操作通常会快10到100倍。
原创 2015-12-15 23:29:19
841阅读
Spark的CheckPoint是在计算完成之后重新建立一个Job来进行计算的,用户可以通过调用RDD.checkpoint()来指定RDD需要checkpoint的机制;为了避免重复计算,建议先对RDD进行persist操作,这样可以保证checkpoint更加快速的完成。
原创 2015-12-15 23:30:13
404阅读
对于Spark中的join操作,如果每个partition仅仅和特定的partition进行join那么就是窄依赖;对于需要parent RDD所有partition进行join的操作,即需要shuffle,此时就是宽依赖。
原创 2015-12-15 23:33:38
372阅读
Spark中宽依赖指的是生成的RDD的每一个partition都依赖于父 RDD(s) 所有partition,宽依赖典型的操作有groupByKey, sortByKey等,宽依赖意味着shuffle操作,这是Spark划分stage的边界的依据,Spark中宽依赖支持两种Shuffle Manager,即HashShuffleManager和SortSh
原创 2015-12-16 00:01:20
395阅读
  • 1
  • 2
  • 3
  • 4
  • 5