大数据林峰_51CTO博客

王家林大数据学习

王家林亲授《DT大数据梦工厂》大数据实战视频“Scala深入浅出实战经典”视频、音频和PPT下载！第66讲：Scala并发编程实战初体验及其在Spark源码中的应用解析百度云：http://pan.baidu.com/s/1pJ5jzHx腾讯微云：http://url.cn/aSawrm360云盘：http://yunpan.cn/cctL3QYACaVNa 访问密码&nbs

scala

大数据

王家林

原创

张扬8

2015-07-26 11:54:36

873阅读

【大数据】王加林-大数据学习资料

王加林-大数据学习资料

王加林-大数据学习资料

大数据

csdn博客

spark

kafka

原创

wx59b1f25acb4df

2021-09-14 15:42:31

513阅读

【速记】山西证券林永峰：山西证券大数据智能中心助力科技证券构建

01数据工作常见问题各位领导，各位同仁大家好。首先非常感谢星环科技给了我们这样一个机会，能够去展示一下大数据在金融行业，特别在我们证券行业的一个落地的实践。我今天讲的主要内容是山西证券大数据和人工智能的应用，以及山西证券构建科技证券的过程。我先介绍一下我们这个部门。今年是山西证券成立三十周年，山西证券是一个历史比较悠久的证券公司，也是国内第一批拿到证券牌照从事证券投资业务的一个证券公司，现在已经发

java

原创

mob604756fd5175

2021-05-14 08:37:11

1068阅读

201906110137 张嘉林大数据作业

为什么会产生大数据技术？ 1、一些数据的记录是以模拟形式存在，或者以数据形式存在，但是存贮在本地，不是公开数据资源，没有开放给互联网用户，例如音乐、照片、视频、监控录像等影音资料。现在这些数据不但数据量巨大，并且共享到了互联网上，面对所有互联网用户，其数量之大是前所未有。 2、移动互联网出现后，移动 ...

数据

数据分析

大数据

社交媒体

大数据技术

转载

mb5ff5917b5bbc5

2021-09-07 16:19:00

38阅读

2评论

“万峰成林处”的山地传奇

　　北纬25度，这条被称为“黄金纬线”的地带，连接着全球诸多宜居城市。　　巴基斯坦卡拉奇、沙特利雅得、美国迈阿密、墨西哥蒙特雷……环视这条纬线，这些城市大多气候宜人、四季分明，拥有丰富的自然资源与独特的地理优势。　　地处黔西南州的兴义市正好坐落在这条纬线上。　　金秋时节，行走在黔西南大地，万峰成林处，马拉松赛道与山水田园风光交相辉映，游人如织；纳具·和园康养旅游小镇内，古老村寨被

网络安全

原创

海小网

2024-10-17 17:36:22

7阅读

王家林每日大数据语录Spark篇0002

Spark基于RDD近乎完美的实现了分布式内存的抽象，且能够基于位置感知性调度、自动容错、负载均衡和高度的可扩展性，Spark中允许用户在执行多个查询时显式的将工作集缓存起来以供后续查询重用，这极大的提高了查询的速度。

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:22:47

415阅读

王家林每日大数据语录Spark篇0001

腾讯的Spark集群已经达到8000台的规模，是目前已知最大的Spark集群，每天运行超过1万各种作业。

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:21:38

522阅读

王家林每日大数据语录Spark篇0003

Spark一体化多元化的解决方案极大的减少了开发和维护的人力成本和部署平台的物力成本，并在性能方面有极大的优势，特别适合于迭代计算，例如机器学习和和图计算；同时Spark对Scala和Python交互式shell的支持也极大的方便了通过shell直接来使用Spark集群来验证解决问题的方法，这对于原型开发至关重要，对数据分析人员有着无法拒绝的吸引力！

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:24:13

1021阅读

王家林每日大数据语录Spark篇0004

Spark中RDD采用高度受限的分布式共享内存，且新的RDD的产生只能够通过其它RDD上的批量操作来创建，依赖于以RDD的Lineage为核心的容错处理，在迭代计算方面比Hadoop快20多倍，同时还可以在5~7秒内交互式的查询TB级别的数据集。

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:25:21

477阅读

王家林每日大数据语录Spark篇0005

Spark RDD是被分区的，对于RDD来说，每个分区都会被一个计算任务处理，并决定并行计算的粒度；RD的每次转换操作都会生成新的RDD，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:26:18

701阅读

王家林每日大数据语录Spark篇0006

基于RDD的整个计算过程都是发生在Worker中的Executor中的。RDD支持三种类型的操作：Transformation、Action以及Persist和CheckPoint为代表的控制类型的操作，RDD一般会从外部数据源读取数据，经过多次RDD的Transformation（中间为了容错和提高效率，有可能使用Persist和CheckPoint），最终通过Action类型的操作一般会把结果

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:27:03

673阅读

王家林每日大数据语录Spark篇0007

RDD的所有Transformation操作都是Lazy级别的，实际上这些Transformation级别操作的RDD在发生Action操作之前只是仅仅被记录会作用在基础数据集上而已，只有当Driver需要返回结果的时候，这些Transformation类型的RDD才会真正作用数据集，基于这样设计的调度模式和运行模式让Spark更加有效率的运行。

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:27:56

432阅读

林仕鼎：大数据需要三类人才

百度公司是一个典型的大数据公司，公司几乎所有的业务都与大数据密切相关，比如搜索引擎、广告等。在百度公司大数据首席架构师林仕鼎看来，大数据业务的发展需要多种人才，包括数据科学家、数据架构师以及数据工程师等。　　在这里，数据科学家是一种狭义上的定义，指的是那些具有数据分析能力，精通各类算法，直接处理数据的人员。经数据科学家加工和分析后得到的信息可以作为业务处理流程的输入数据，用来驱动业务的发展。　　数

百度

人才

大数据

数据科学家

原创

郭涛

2013-10-28 09:46:30

772阅读

【云栖2023】王峰：开源大数据平台3.0技术解读

本文根据2023云栖大会演讲实录整理而成，演讲信息如下：演讲人：王峰 | 阿里云研究员，阿里云计算平台事业部开源大数据平台负责人演讲主题：开源大数据平台3.0技术解读实时化与Serverless是开源大数据3.0时代的必然选择阿里云开源大数据平台孵化于阿里巴巴集团内部业务。早在2009年，我们就开始采用开源 Hadoop 技术体系来服务阿里内部快速发展的电商业务。在阿里巴巴内部这套 Hadoop

数据

大数据平台

原创

阿里云大数据AI技术

2023-11-15 14:01:27

228阅读

DNA存储大数据，峰哥身价暴涨10个亿

昨天上班在谷歌查一个存储优化问题的时候，突然想到一个点：随着数据量的越来越大，我们的存储成本越来越高，无论压缩技术多么牛逼，最终还是得落地物理存储空间，就是得有地方放数据，那如何解决这个问题呢？于是我喝了口水，倒了几颗益达到嘴里，起身去卫生间带薪摸鱼。这是峰哥的一个习惯，每当解决完一个bug或遇到一些比较难解决问题，我就会去放松放松，所以卫生间叫 rest + room 是有道理的。坐下去打开抖音

java

原创

局放在线监测光伏单板监测

2021-03-29 10:04:33

311阅读

DNA存储大数据，峰哥身价暴涨10个亿

每个细胞可存5GB数据，人体有30万亿个细胞，人均身价过亿！

软件

原创

wb57e7be70e3b57

2021-06-23 17:40:58

1292阅读

峰哥读者的大数据学习路线，附学习资料

双一流硕士转行大数据开发！

经验分享

转载

wb57e7be70e3b57

2021-06-23 09:40:15

464阅读

王家林每日大数据语录Spark篇0010（2015.11.2于深圳）

SparkContext是用户程序和Spark交互的接口，它会负责连接到Spark集群，并且根据系统默认配置和用户设置来申请计算资源，完成RDD的创建等工作。

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:30:54

533阅读

王家林每日大数据语录Spark篇0011（2015.11.2于深圳）

RDD的saveAsTextFile方法会首先生成一个MapPartitionsRDD，该RDD通过雕工PairRDDFunctions的saveAsHadoopDataset方法向HDFS等输出RDD数据的内容，并在在最后调用SparkContext的runJob来真正的向Spark集群提交计算任务。

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-15 23:31:46

499阅读

王家林每日大数据语录Spark篇0016（2015.11.6于南宁）

RDD在创建子RDD的时候，会通过Dependency来定义他们之间的关系，通过Dependency，子RDD可以获得parent RDD(s)和parent RDD(s)的Partition(s).

王家林

王家林spark

王家林语录

原创

王家林学院

2015-12-16 00:01:59

594阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

大数据林峰

王家林大数据学习

【大数据】王加林-大数据学习资料

【速记】山西证券林永峰：山西证券大数据智能中心助力科技证券构建

201906110137 张嘉林大数据作业

“万峰成林处”的山地传奇

王家林每日大数据语录Spark篇0002

王家林每日大数据语录Spark篇0001

王家林每日大数据语录Spark篇0003

王家林每日大数据语录Spark篇0004

王家林每日大数据语录Spark篇0005

王家林每日大数据语录Spark篇0006

王家林每日大数据语录Spark篇0007

林仕鼎：大数据需要三类人才

【云栖2023】王峰：开源大数据平台3.0技术解读

DNA存储大数据，峰哥身价暴涨10个亿

DNA存储大数据，峰哥身价暴涨10个亿

峰哥读者的大数据学习路线，附学习资料

王家林每日大数据语录Spark篇0010（2015.11.2于深圳）

王家林每日大数据语录Spark篇0011（2015.11.2于深圳）

王家林每日大数据语录Spark篇0016（2015.11.6于南宁）

王家林每日大数据语录Spark篇0022（2015.11.18于珠海）

谭安林：大数据在智能外呼系统的应用

王家林每日大数据语录Spark篇0008（2015.10.31于北京）

王家林每日大数据语录Spark篇0009（2015.11.1于北京）

王家林每日大数据语录Spark篇0014（2015.11.4于南宁）

王家林每日大数据语录Spark篇0015（2015.11.5于南宁）

王家林每日大数据语录Spark篇0018（2015.11.7于南宁）

王家林每日大数据语录Spark篇0019（2015.11.10于重庆）

王家林每日大数据语录Spark篇0020（2015.11.11于重庆）

【干货】周峰：患者体验大数据应用实践与前景展望

51CTO博客

大数据 林峰

王家林大数据学习

【大数据】王加林-大数据学习资料

【速记】山西证券 林永峰：山西证券大数据智能中心助力科技证券构建

201906110137 张嘉林 大数据作业

“万峰成林处”的山地传奇

王家林每日大数据语录Spark篇0002

王家林每日大数据语录Spark篇0001

王家林每日大数据语录Spark篇0003

王家林每日大数据语录Spark篇0004

王家林每日大数据语录Spark篇0005

王家林每日大数据语录Spark篇0006

王家林每日大数据语录Spark篇0007

林仕鼎：大数据需要三类人才

【云栖2023】王峰：开源大数据平台3.0技术解读

DNA存储大数据，峰哥身价暴涨10个亿

DNA存储大数据，峰哥身价暴涨10个亿

峰哥读者的大数据学习路线，附学习资料

王家林每日大数据语录Spark篇0010（2015.11.2于深圳）

王家林每日大数据语录Spark篇0011（2015.11.2于深圳）

王家林每日大数据语录Spark篇0016（2015.11.6于南宁）

王家林每日大数据语录Spark篇0022（2015.11.18于珠海）

谭安林：大数据在智能外呼系统的应用

王家林每日大数据语录Spark篇0008（2015.10.31于北京）

王家林每日大数据语录Spark篇0009（2015.11.1于北京）

王家林每日大数据语录Spark篇0014（2015.11.4于南宁）

王家林每日大数据语录Spark篇0015（2015.11.5于南宁）

王家林每日大数据语录Spark篇0018（2015.11.7于南宁）

王家林每日大数据语录Spark篇0019（2015.11.10于重庆）

王家林每日大数据语录Spark篇0020（2015.11.11于重庆）

【干货】周峰：患者体验大数据应用实践与前景展望

大数据林峰

【速记】山西证券林永峰：山西证券大数据智能中心助力科技证券构建

201906110137 张嘉林大数据作业