林大数据_51CTO博客

王家林大数据学习

王家林亲授《DT大数据梦工厂》大数据实战视频“Scala深入浅出实战经典”视频、音频和PPT下载！第66讲：Scala并发编程实战初体验及其在Spark源码中的应用解析百度云：http://pan.baidu.com/s/1pJ5jzHx腾讯微云：http://url.cn/aSawrm360云盘：http://yunpan.cn/cctL3QYACaVNa 访问密码&nbs

scala

大数据

王家林

原创

张扬8

2015-07-26 11:54:36

873阅读

【大数据】王加林-大数据学习资料

王加林-大数据学习资料

王加林-大数据学习资料

大数据

csdn博客

spark

kafka

原创

wx59b1f25acb4df

2021-09-14 15:42:31

513阅读

201906110137 张嘉林大数据作业

为什么会产生大数据技术？ 1、一些数据的记录是以模拟形式存在，或者以数据形式存在，但是存贮在本地，不是公开数据资源，没有开放给互联网用户，例如音乐、照片、视频、监控录像等影音资料。现在这些数据不但数据量巨大，并且共享到了互联网上，面对所有互联网用户，其数量之大是前所未有。 2、移动互联网出现后，移动 ...

数据

数据分析

大数据

社交媒体

大数据技术

转载

mb5ff5917b5bbc5

2021-09-07 16:19:00

38阅读

2评论

王家林每日大数据语录Spark篇0002

Spark基于RDD近乎完美的实现了分布式内存的抽象，且能够基于位置感知性调度、自动容错、负载均衡和高度的可扩展性，Spark中允许用户在执行多个查询时显式的将工作集缓存起来以供后续查询重用，这极大的提高了查询的速度。

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:22:47

415阅读

王家林每日大数据语录Spark篇0001

腾讯的Spark集群已经达到8000台的规模，是目前已知最大的Spark集群，每天运行超过1万各种作业。

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:21:38

522阅读

王家林每日大数据语录Spark篇0003

Spark一体化多元化的解决方案极大的减少了开发和维护的人力成本和部署平台的物力成本，并在性能方面有极大的优势，特别适合于迭代计算，例如机器学习和和图计算；同时Spark对Scala和Python交互式shell的支持也极大的方便了通过shell直接来使用Spark集群来验证解决问题的方法，这对于原型开发至关重要，对数据分析人员有着无法拒绝的吸引力！

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:24:13

1021阅读

王家林每日大数据语录Spark篇0004

Spark中RDD采用高度受限的分布式共享内存，且新的RDD的产生只能够通过其它RDD上的批量操作来创建，依赖于以RDD的Lineage为核心的容错处理，在迭代计算方面比Hadoop快20多倍，同时还可以在5~7秒内交互式的查询TB级别的数据集。

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:25:21

477阅读

王家林每日大数据语录Spark篇0005

Spark RDD是被分区的，对于RDD来说，每个分区都会被一个计算任务处理，并决定并行计算的粒度；RD的每次转换操作都会生成新的RDD，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:26:18

701阅读

基于RDD的整个计算过程都是发生在Worker中的Executor中的。RDD支持三种类型的操作：Transformation、Action以及Persist和CheckPoint为代表的控制类型的操作，RDD一般会从外部数据源读取数据，经过多次RDD的Transformation（中间为了容错和提高效率，有可能使用Persist和CheckPoint），最终通过Action类型的操作一般会把结果

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:27:03

673阅读

王家林每日大数据语录Spark篇0007

RDD的所有Transformation操作都是Lazy级别的，实际上这些Transformation级别操作的RDD在发生Action操作之前只是仅仅被记录会作用在基础数据集上而已，只有当Driver需要返回结果的时候，这些Transformation类型的RDD才会真正作用数据集，基于这样设计的调度模式和运行模式让Spark更加有效率的运行。

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:27:56

432阅读

林仕鼎：大数据需要三类人才

百度公司是一个典型的大数据公司，公司几乎所有的业务都与大数据密切相关，比如搜索引擎、广告等。在百度公司大数据首席架构师林仕鼎看来，大数据业务的发展需要多种人才，包括数据科学家、数据架构师以及数据工程师等。　　在这里，数据科学家是一种狭义上的定义，指的是那些具有数据分析能力，精通各类算法，直接处理数据的人员。经数据科学家加工和分析后得到的信息可以作为业务处理流程的输入数据，用来驱动业务的发展。　　数

百度

人才

大数据

数据科学家

原创

郭涛

2013-10-28 09:46:30

772阅读

王家林每日大数据语录Spark篇0010（2015.11.2于深圳）

SparkContext是用户程序和Spark交互的接口，它会负责连接到Spark集群，并且根据系统默认配置和用户设置来申请计算资源，完成RDD的创建等工作。

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:30:54

533阅读

王家林每日大数据语录Spark篇0011（2015.11.2于深圳）

RDD的saveAsTextFile方法会首先生成一个MapPartitionsRDD，该RDD通过雕工PairRDDFunctions的saveAsHadoopDataset方法向HDFS等输出RDD数据的内容，并在在最后调用SparkContext的runJob来真正的向Spark集群提交计算任务。

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:31:46

499阅读

王家林每日大数据语录Spark篇0016（2015.11.6于南宁）

RDD在创建子RDD的时候，会通过Dependency来定义他们之间的关系，通过Dependency，子RDD可以获得parent RDD(s)和parent RDD(s)的Partition(s).

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-16 00:01:59

594阅读

王家林每日大数据语录Spark篇0022（2015.11.18于珠海）

Spark Checkpoint通过将RDD写入Disk做检查点，是Spark lineage容错的辅助，lineage过长会造成容错成本过高，这时候在中间阶段做检查点容错，如果之后有节点出现问题而丢失分区，从做检查点的RDD开始重做Lineage，就会减少开销。Checkpoint主要适用于以下两种情况：1. DAG中的Lineage过长，如果重算时会开销太大，例如

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-16 00:06:09

577阅读

谭安林：大数据在智能外呼系统的应用

欢迎大家前往腾讯云+社区，获取更多腾讯海量技术实践干货哦~本文由云加社区技术沙龙发表于云+社区专栏谭安林，腾讯高级工程师，2015年加入腾讯，8年互联网从业经历，从事大数据平台与产品开发相关工作；先后参与广告、金融等领域产品项目，目前负责行为预测解决方案，帮助客户盘活现有客群、挖掘潜在高价值新客。目前我们的产品包括：智能客服、大数据套件、腾讯移动分析、腾讯移动推送等。商业是一个价值交换的事情，并不

大数据

机器人

机器学习

AI

智能客服

原创

云加社区

2018-09-27 11:46:24

246阅读

王家林每日大数据语录Spark篇0008（2015.10.31于北京）

持久化（包含Memory、Disk、Tachyon等类型）是Spark构建迭代算法和快速交互式查询的关键，当通过persist对一个RDD持久化后，每一个节点都将把计算的分片结果保存在内存或者磁盘或者Tachyon上，并且对此数据集或者衍生出来的数据集进行的其它Action级别的炒作都可以重用当前RDD的计算结果，这是的后续的的操作通常会快10到100倍。

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:29:19

841阅读

王家林每日大数据语录Spark篇0009（2015.11.1于北京）

Spark的CheckPoint是在计算完成之后重新建立一个Job来进行计算的，用户可以通过调用RDD.checkpoint()来指定RDD需要checkpoint的机制；为了避免重复计算，建议先对RDD进行persist操作，这样可以保证checkpoint更加快速的完成。

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:30:13

404阅读

王家林每日大数据语录Spark篇0014（2015.11.4于南宁）

对于Spark中的join操作，如果每个partition仅仅和特定的partition进行join那么就是窄依赖；对于需要parent RDD所有partition进行join的操作，即需要shuffle,此时就是宽依赖。

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:33:38

372阅读

王家林每日大数据语录Spark篇0015（2015.11.5于南宁）

Spark中宽依赖指的是生成的RDD的每一个partition都依赖于父 RDD(s) 所有partition，宽依赖典型的操作有groupByKey, sortByKey等，宽依赖意味着shuffle操作，这是Spark划分stage的边界的依据，Spark中宽依赖支持两种Shuffle Manager，即HashShuffleManager和SortSh

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-16 00:01:20

395阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

林大数据

王家林大数据学习

【大数据】王加林-大数据学习资料

201906110137 张嘉林大数据作业

王家林每日大数据语录Spark篇0002

王家林每日大数据语录Spark篇0001

王家林每日大数据语录Spark篇0003

王家林每日大数据语录Spark篇0004

王家林每日大数据语录Spark篇0005

王家林每日大数据语录Spark篇0006

王家林每日大数据语录Spark篇0007

林仕鼎：大数据需要三类人才

王家林每日大数据语录Spark篇0010（2015.11.2于深圳）

王家林每日大数据语录Spark篇0011（2015.11.2于深圳）

王家林每日大数据语录Spark篇0016（2015.11.6于南宁）

王家林每日大数据语录Spark篇0022（2015.11.18于珠海）

谭安林：大数据在智能外呼系统的应用

王家林每日大数据语录Spark篇0008（2015.10.31于北京）

王家林每日大数据语录Spark篇0009（2015.11.1于北京）

王家林每日大数据语录Spark篇0014（2015.11.4于南宁）

王家林每日大数据语录Spark篇0015（2015.11.5于南宁）

王家林每日大数据语录Spark篇0018（2015.11.7于南宁）

王家林每日大数据语录Spark篇0019（2015.11.10于重庆）

王家林每日大数据语录Spark篇0020（2015.11.11于重庆）

王家林每日大数据语录Spark篇0012（2015.11.2于深圳）

王家林每日大数据语录Spark篇0013（2015.11.3于广州）

王家林每日大数据语录Spark篇0017（2015.11.6于南宁）

王家林每日大数据语录Spark篇0021（2015.11.18于珠海）

Spark分区详解！DT大数据梦工厂王家林老师亲自讲解！

Spark开源框架精彩学习资源分享——DT大数据梦工厂王家林

大数据呀大数据

51CTO博客

林 大数据

王家林大数据学习

【大数据】王加林-大数据学习资料

201906110137 张嘉林 大数据作业

王家林每日大数据语录Spark篇0002

王家林每日大数据语录Spark篇0001

王家林每日大数据语录Spark篇0003

王家林每日大数据语录Spark篇0004

王家林每日大数据语录Spark篇0005

王家林每日大数据语录Spark篇0006

王家林每日大数据语录Spark篇0007

林仕鼎：大数据需要三类人才

王家林每日大数据语录Spark篇0010（2015.11.2于深圳）

王家林每日大数据语录Spark篇0011（2015.11.2于深圳）

王家林每日大数据语录Spark篇0016（2015.11.6于南宁）

王家林每日大数据语录Spark篇0022（2015.11.18于珠海）

谭安林：大数据在智能外呼系统的应用

王家林每日大数据语录Spark篇0008（2015.10.31于北京）

王家林每日大数据语录Spark篇0009（2015.11.1于北京）

王家林每日大数据语录Spark篇0014（2015.11.4于南宁）

王家林每日大数据语录Spark篇0015（2015.11.5于南宁）

王家林每日大数据语录Spark篇0018（2015.11.7于南宁）

王家林每日大数据语录Spark篇0019（2015.11.10于重庆）

王家林每日大数据语录Spark篇0020（2015.11.11于重庆）

王家林每日大数据语录Spark篇0012（2015.11.2于深圳）

王家林每日大数据语录Spark篇0013（2015.11.3于广州）

王家林每日大数据语录Spark篇0017（2015.11.6于南宁）

王家林每日大数据语录Spark篇0021（2015.11.18于珠海）

Spark分区详解！DT大数据梦工厂王家林老师亲自讲解！

Spark开源框架精彩学习资源分享——DT大数据梦工厂王家林

大数据呀大数据

林大数据

201906110137 张嘉林大数据作业