王家林亲授《DT大数据梦工厂》大数据实战视频“Scala深入浅出实战经典”视频、音频和PPT下载!第66讲:Scala并发编程实战初体验及其在Spark源码中的应用解析百度云:http://pan.baidu.com/s/1pJ5jzHx腾讯微云:http://url.cn/aSawrm360云盘:http://yunpan.cn/cctL3QYACaVNa 访问密码&nbs
原创
2015-07-26 11:54:36
873阅读
为什么会产生大数据技术? 1、一些数据的记录是以模拟形式存在,或者以数据形式存在,但是存贮在本地,不是公开数据资源,没有开放给互联网用户,例如音乐、照片、视频、监控录像等影音资料。现在这些数据不但数据量巨大,并且共享到了互联网上,面对所有互联网用户,其数量之大是前所未有。 2、移动互联网出现后,移动 ...
转载
2021-09-07 16:19:00
38阅读
2评论
Spark基于RDD近乎完美的实现了分布式内存的抽象,且能够基于位置感知性调度、自动容错、负载均衡和高度的可扩展性,Spark中允许用户在执行多个查询时显式的将工作集缓存起来以供后续查询重用,这极大的提高了查询的速度。
原创
2015-12-15 23:22:47
415阅读
腾讯的Spark集群已经达到8000台的规模,是目前已知最大的Spark集群,每天运行超过1万各种作业。
原创
2015-12-15 23:21:38
522阅读
Spark一体化多元化的解决方案极大的减少了开发和维护的人力成本和部署平台的物力成本,并在性能方面有极大的优势,特别适合于迭代计算,例如机器学习和和图计算;同时Spark对Scala和Python交互式shell的支持也极大的方便了通过shell直接来使用Spark集群来验证解决问题的方法,这对于原型开发至关重要,对数据分析人员有着无法拒绝的吸引力!
原创
2015-12-15 23:24:13
1021阅读
Spark中RDD采用高度受限的分布式共享内存,且新的RDD的产生只能够通过其它RDD上的批量操作来创建,依赖于以RDD的Lineage为核心的容错处理,在迭代计算方面比Hadoop快20多倍,同时还可以在5~7秒内交互式的查询TB级别的数据集。
原创
2015-12-15 23:25:21
477阅读
Spark RDD是被分区的,对于RDD来说,每个分区都会被一个计算任务处理,并决定并行计算的粒度;RD的每次转换操作都会生成新的RDD,在生成RDD时候,一般可以指定分区的数量,如果不指定分区数量,当RDD从集合创建时候,则默认为该程序所分配到的资源的CPU核数,如果是从HDFS文件创建,默认为文件的Block数。
原创
2015-12-15 23:26:18
701阅读
基于RDD的整个计算过程都是发生在Worker中的Executor中的。RDD支持三种类型的操作:Transformation、Action以及Persist和CheckPoint为代表的控制类型的操作,RDD一般会从外部数据源读取数据,经过多次RDD的Transformation(中间为了容错和提高效率,有可能使用Persist和CheckPoint),最终通过Action类型的操作一般会把结果
原创
2015-12-15 23:27:03
673阅读
RDD的所有Transformation操作都是Lazy级别的,实际上这些Transformation级别操作的RDD在发生Action操作之前只是仅仅被记录会作用在基础数据集上而已,只有当Driver需要返回结果的时候,这些Transformation类型的RDD才会真正作用数据集,基于这样设计的调度模式和运行模式让Spark更加有效率的运行。
原创
2015-12-15 23:27:56
432阅读
题目题目描述: sun所在学校每年都要举行电脑节,今年电脑节有一个新的趣味比赛项目叫做闯迷宫。 sun的室友在帮电脑节设计迷宫,所以室友就请sun帮忙计算下走出迷宫的最少步数。 知道了最少步数就可以辅助控制比赛难度以及去掉一些没有路径到达终点的map。 比赛规则是:从原点(0,0)开始走到终点(n-1,n-1),只能上下左右4个方向走,只能在给定的矩阵里走。 输入: 输入有多组数据。 每组数据输入
转载
2013-04-07 12:13:00
93阅读
2评论
题目题目描述:
sun所在学校每年都要举行电脑节,今年电脑节有一个新的趣味比赛项目叫做闯迷宫。
转载
2013-04-07 01:04:00
70阅读
2评论
百度公司是一个典型的大数据公司,公司几乎所有的业务都与大数据密切相关,比如搜索引擎、广告等。在百度公司大数据首席架构师林仕鼎看来,大数据业务的发展需要多种人才,包括数据科学家、数据架构师以及数据工程师等。 在这里,数据科学家是一种狭义上的定义,指的是那些具有数据分析能力,精通各类算法,直接处理数据的人员。经数据科学家加工和分析后得到的信息可以作为业务处理流程的输入数据,用来驱动业务的发展。 数
原创
2013-10-28 09:46:30
772阅读
敢爱敢做歌 手: 林子祥街边焦急的我餐厅忧郁的你隔片沙玻璃两眼带些伤悲交通灯边的我紧抱深爱的你听呼吸声却已急速到死冷雨扑向我点点纷飞千度高温波涛由你涌起个个说我太狂 笑我不羁敢于交出真情 哪算可鄙狂抱拥不需休息的吻不需呼吸空气不需街边观众远离微雨中 身边车辆飞过街里路人走过交通灯催促过剩下独是我跟你收紧一双手臂箍紧身边的你透过湿恤衫贴向你的肤肌身边多少指责都已一概不理我爱的真深我俩应该吻死冷雨扑向
原创
2014-12-18 16:54:20
1133阅读
补;
上个星期天,终于不用加班了.早就从网上看到东门有促销.
深南茂业来就送120元大礼包,本来想看看这是真的还是假的,但好奇心还是小了点.直接去东门.
以前去过几次东门,都是跟别人一起去,我跟着走就行,所以东门茂业在哪不知道.这次东门茂业买100送120,必去.
没有直达的公交车,先坐车到白石洲.上了370,结果白石洲不停.一年多了,跟不上时代了,只好在世界之窗停了.当时下车时有个人问,坐113
原创
2007-11-11 22:49:21
827阅读
1评论
SparkContext是用户程序和Spark交互的接口,它会负责连接到Spark集群,并且根据系统默认配置和用户设置来申请计算资源,完成RDD的创建等工作。
原创
2015-12-15 23:30:54
533阅读
RDD的saveAsTextFile方法会首先生成一个MapPartitionsRDD,该RDD通过雕工PairRDDFunctions的saveAsHadoopDataset方法向HDFS等输出RDD数据的内容,并在在最后调用SparkContext的runJob来真正的向Spark集群提交计算任务。
原创
2015-12-15 23:31:46
499阅读
RDD在创建子RDD的时候,会通过Dependency来定义他们之间的关系,通过Dependency,子RDD可以获得parent RDD(s)和parent RDD(s)的Partition(s).
原创
2015-12-16 00:01:59
594阅读
Spark Checkpoint通过将RDD写入Disk做检查点,是Spark lineage容错的辅助,lineage过长会造成容错成本过高,这时候在中间阶段做检查点容错,如果之后有节点出现问题而丢失分区,从做检查点的RDD开始重做Lineage,就会减少开销。Checkpoint主要适用于以下两种情况:1. DAG中的Lineage过长,如果重算时会开销太大,例如
原创
2015-12-16 00:06:09
577阅读
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~本文由云加社区技术沙龙发表于云+社区专栏谭安林,腾讯高级工程师,2015年加入腾讯,8年互联网从业经历,从事大数据平台与产品开发相关工作;先后参与广告、金融等领域产品项目,目前负责行为预测解决方案,帮助客户盘活现有客群、挖掘潜在高价值新客。目前我们的产品包括:智能客服、大数据套件、腾讯移动分析、腾讯移动推送等。商业是一个价值交换的事情,并不
原创
2018-09-27 11:46:24
246阅读