林闯大数据_51CTO博客

王家林大数据学习

王家林亲授《DT大数据梦工厂》大数据实战视频“Scala深入浅出实战经典”视频、音频和PPT下载！第66讲：Scala并发编程实战初体验及其在Spark源码中的应用解析百度云：http://pan.baidu.com/s/1pJ5jzHx腾讯微云：http://url.cn/aSawrm360云盘：http://yunpan.cn/cctL3QYACaVNa 访问密码&nbs

scala

大数据

王家林

原创

张扬8

2015-07-26 11:54:36

873阅读

【大数据】王加林-大数据学习资料

王加林-大数据学习资料

王加林-大数据学习资料

大数据

csdn博客

spark

kafka

原创

wx59b1f25acb4df

2021-09-14 15:42:31

513阅读

201906110137 张嘉林大数据作业

为什么会产生大数据技术？ 1、一些数据的记录是以模拟形式存在，或者以数据形式存在，但是存贮在本地，不是公开数据资源，没有开放给互联网用户，例如音乐、照片、视频、监控录像等影音资料。现在这些数据不但数据量巨大，并且共享到了互联网上，面对所有互联网用户，其数量之大是前所未有。 2、移动互联网出现后，移动 ...

数据

数据分析

大数据

社交媒体

大数据技术

转载

mb5ff5917b5bbc5

2021-09-07 16:19:00

38阅读

2评论

王家林每日大数据语录Spark篇0002

Spark基于RDD近乎完美的实现了分布式内存的抽象，且能够基于位置感知性调度、自动容错、负载均衡和高度的可扩展性，Spark中允许用户在执行多个查询时显式的将工作集缓存起来以供后续查询重用，这极大的提高了查询的速度。

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:22:47

415阅读

王家林每日大数据语录Spark篇0001

腾讯的Spark集群已经达到8000台的规模，是目前已知最大的Spark集群，每天运行超过1万各种作业。

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:21:38

522阅读

王家林每日大数据语录Spark篇0003

Spark一体化多元化的解决方案极大的减少了开发和维护的人力成本和部署平台的物力成本，并在性能方面有极大的优势，特别适合于迭代计算，例如机器学习和和图计算；同时Spark对Scala和Python交互式shell的支持也极大的方便了通过shell直接来使用Spark集群来验证解决问题的方法，这对于原型开发至关重要，对数据分析人员有着无法拒绝的吸引力！

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:24:13

1021阅读

王家林每日大数据语录Spark篇0004

Spark中RDD采用高度受限的分布式共享内存，且新的RDD的产生只能够通过其它RDD上的批量操作来创建，依赖于以RDD的Lineage为核心的容错处理，在迭代计算方面比Hadoop快20多倍，同时还可以在5~7秒内交互式的查询TB级别的数据集。

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:25:21

477阅读

王家林每日大数据语录Spark篇0005

Spark RDD是被分区的，对于RDD来说，每个分区都会被一个计算任务处理，并决定并行计算的粒度；RD的每次转换操作都会生成新的RDD，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:26:18

701阅读

基于RDD的整个计算过程都是发生在Worker中的Executor中的。RDD支持三种类型的操作：Transformation、Action以及Persist和CheckPoint为代表的控制类型的操作，RDD一般会从外部数据源读取数据，经过多次RDD的Transformation（中间为了容错和提高效率，有可能使用Persist和CheckPoint），最终通过Action类型的操作一般会把结果

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:27:03

673阅读

王家林每日大数据语录Spark篇0007

RDD的所有Transformation操作都是Lazy级别的，实际上这些Transformation级别操作的RDD在发生Action操作之前只是仅仅被记录会作用在基础数据集上而已，只有当Driver需要返回结果的时候，这些Transformation类型的RDD才会真正作用数据集，基于这样设计的调度模式和运行模式让Spark更加有效率的运行。

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:27:56

432阅读

闯迷宫

题目题目描述： sun所在学校每年都要举行电脑节，今年电脑节有一个新的趣味比赛项目叫做闯迷宫。 sun的室友在帮电脑节设计迷宫，所以室友就请sun帮忙计算下走出迷宫的最少步数。知道了最少步数就可以辅助控制比赛难度以及去掉一些没有路径到达终点的map。比赛规则是：从原点（0,0）开始走到终点（n-1,n-1），只能上下左右4个方向走，只能在给定的矩阵里走。输入：输入有多组数据。每组数据输入

数据

#include

初始化

输入输出

二维

转载

mob604756f4c9c3

2013-04-07 12:13:00

93阅读

2评论

闯迷宫

题目题目描述： sun所在学校每年都要举行电脑节，今年电脑节有一个新的趣味比赛项目叫做闯迷宫。

数据

#include

初始化

输入输出

二维

转载

mob604756eb4476

2013-04-07 01:04:00

70阅读

2评论

林仕鼎：大数据需要三类人才

百度公司是一个典型的大数据公司，公司几乎所有的业务都与大数据密切相关，比如搜索引擎、广告等。在百度公司大数据首席架构师林仕鼎看来，大数据业务的发展需要多种人才，包括数据科学家、数据架构师以及数据工程师等。　　在这里，数据科学家是一种狭义上的定义，指的是那些具有数据分析能力，精通各类算法，直接处理数据的人员。经数据科学家加工和分析后得到的信息可以作为业务处理流程的输入数据，用来驱动业务的发展。　　数

百度

人才

大数据

数据科学家

原创

郭涛

2013-10-28 09:46:30

772阅读

敢爱敢做勇敢闯一闯

敢爱敢做歌手：林子祥街边焦急的我餐厅忧郁的你隔片沙玻璃两眼带些伤悲交通灯边的我紧抱深爱的你听呼吸声却已急速到死冷雨扑向我点点纷飞千度高温波涛由你涌起个个说我太狂笑我不羁敢于交出真情哪算可鄙狂抱拥不需休息的吻不需呼吸空气不需街边观众远离微雨中身边车辆飞过街里路人走过交通灯催促过剩下独是我跟你收紧一双手臂箍紧身边的你透过湿恤衫贴向你的肤肌身边多少指责都已一概不理我爱的真深我俩应该吻死冷雨扑向

kg

原创

刘老污

2014-12-18 16:54:20

1133阅读

路盲闯东门

补; 上个星期天,终于不用加班了.早就从网上看到东门有促销. 深南茂业来就送120元大礼包,本来想看看这是真的还是假的,但好奇心还是小了点.直接去东门. 以前去过几次东门,都是跟别人一起去,我跟着走就行,所以东门茂业在哪不知道.这次东门茂业买100送120,必去. 没有直达的公交车,先坐车到白石洲.上了370,结果白石洲不停.一年多了,跟不上时代了,只好在世界之窗停了.当时下车时有个人问,坐113

职场

休闲

东门

原创

wingking84

2007-11-11 22:49:21

827阅读

1评论

王家林每日大数据语录Spark篇0010（2015.11.2于深圳）

SparkContext是用户程序和Spark交互的接口，它会负责连接到Spark集群，并且根据系统默认配置和用户设置来申请计算资源，完成RDD的创建等工作。

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:30:54

533阅读

王家林每日大数据语录Spark篇0011（2015.11.2于深圳）

RDD的saveAsTextFile方法会首先生成一个MapPartitionsRDD，该RDD通过雕工PairRDDFunctions的saveAsHadoopDataset方法向HDFS等输出RDD数据的内容，并在在最后调用SparkContext的runJob来真正的向Spark集群提交计算任务。

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:31:46

499阅读

王家林每日大数据语录Spark篇0016（2015.11.6于南宁）

RDD在创建子RDD的时候，会通过Dependency来定义他们之间的关系，通过Dependency，子RDD可以获得parent RDD(s)和parent RDD(s)的Partition(s).

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-16 00:01:59

594阅读

王家林每日大数据语录Spark篇0022（2015.11.18于珠海）

Spark Checkpoint通过将RDD写入Disk做检查点，是Spark lineage容错的辅助，lineage过长会造成容错成本过高，这时候在中间阶段做检查点容错，如果之后有节点出现问题而丢失分区，从做检查点的RDD开始重做Lineage，就会减少开销。Checkpoint主要适用于以下两种情况：1. DAG中的Lineage过长，如果重算时会开销太大，例如

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-16 00:06:09

577阅读

谭安林：大数据在智能外呼系统的应用

欢迎大家前往腾讯云+社区，获取更多腾讯海量技术实践干货哦~本文由云加社区技术沙龙发表于云+社区专栏谭安林，腾讯高级工程师，2015年加入腾讯，8年互联网从业经历，从事大数据平台与产品开发相关工作；先后参与广告、金融等领域产品项目，目前负责行为预测解决方案，帮助客户盘活现有客群、挖掘潜在高价值新客。目前我们的产品包括：智能客服、大数据套件、腾讯移动分析、腾讯移动推送等。商业是一个价值交换的事情，并不

大数据

机器人

机器学习

AI

智能客服

原创

云加社区

2018-09-27 11:46:24

246阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

林闯大数据

王家林大数据学习

【大数据】王加林-大数据学习资料

201906110137 张嘉林大数据作业

王家林每日大数据语录Spark篇0002

王家林每日大数据语录Spark篇0001

王家林每日大数据语录Spark篇0003

王家林每日大数据语录Spark篇0004

王家林每日大数据语录Spark篇0005

王家林每日大数据语录Spark篇0006

王家林每日大数据语录Spark篇0007

闯迷宫

闯迷宫

林仕鼎：大数据需要三类人才

敢爱敢做勇敢闯一闯

路盲闯东门

王家林每日大数据语录Spark篇0010（2015.11.2于深圳）

王家林每日大数据语录Spark篇0011（2015.11.2于深圳）

王家林每日大数据语录Spark篇0016（2015.11.6于南宁）

王家林每日大数据语录Spark篇0022（2015.11.18于珠海）

谭安林：大数据在智能外呼系统的应用

王家林每日大数据语录Spark篇0008（2015.10.31于北京）

王家林每日大数据语录Spark篇0009（2015.11.1于北京）

王家林每日大数据语录Spark篇0014（2015.11.4于南宁）

王家林每日大数据语录Spark篇0015（2015.11.5于南宁）

王家林每日大数据语录Spark篇0018（2015.11.7于南宁）

王家林每日大数据语录Spark篇0019（2015.11.10于重庆）

王家林每日大数据语录Spark篇0020（2015.11.11于重庆）

王家林每日大数据语录Spark篇0012（2015.11.2于深圳）

王家林每日大数据语录Spark篇0013（2015.11.3于广州）

王家林每日大数据语录Spark篇0017（2015.11.6于南宁）

51CTO博客

林闯大数据

王家林大数据学习

【大数据】王加林-大数据学习资料

201906110137 张嘉林 大数据作业

王家林每日大数据语录Spark篇0002

王家林每日大数据语录Spark篇0001

王家林每日大数据语录Spark篇0003

王家林每日大数据语录Spark篇0004

王家林每日大数据语录Spark篇0005

王家林每日大数据语录Spark篇0006

王家林每日大数据语录Spark篇0007

闯迷宫

闯迷宫

林仕鼎：大数据需要三类人才

敢爱敢做勇敢闯一闯

路盲闯东门

王家林每日大数据语录Spark篇0010（2015.11.2于深圳）

王家林每日大数据语录Spark篇0011（2015.11.2于深圳）

王家林每日大数据语录Spark篇0016（2015.11.6于南宁）

王家林每日大数据语录Spark篇0022（2015.11.18于珠海）

谭安林：大数据在智能外呼系统的应用

王家林每日大数据语录Spark篇0008（2015.10.31于北京）

王家林每日大数据语录Spark篇0009（2015.11.1于北京）

王家林每日大数据语录Spark篇0014（2015.11.4于南宁）

王家林每日大数据语录Spark篇0015（2015.11.5于南宁）

王家林每日大数据语录Spark篇0018（2015.11.7于南宁）

王家林每日大数据语录Spark篇0019（2015.11.10于重庆）

王家林每日大数据语录Spark篇0020（2015.11.11于重庆）

王家林每日大数据语录Spark篇0012（2015.11.2于深圳）

王家林每日大数据语录Spark篇0013（2015.11.3于广州）

王家林每日大数据语录Spark篇0017（2015.11.6于南宁）

201906110137 张嘉林大数据作业