王家亲授《DT大数据梦工厂》大数据实战视频“Scala深入浅出实战经典”视频、音频和PPT下载!第66讲:Scala并发编程实战初体验及其在Spark源码中的应用解析百度云:http://pan.baidu.com/s/1pJ5jzHx腾讯微云:http://url.cn/aSawrm360云盘:http://yunpan.cn/cctL3QYACaVNa  访问密码&nbs
原创 2015-07-26 11:54:36
873阅读
王加-大数据学习资料
01数据工作常见问题各位领导,各位同仁大家好。首先非常感谢星环科技给了我们这样一个机会,能够去展示一下大数据在金融行业,特别在我们证券行业的一个落地的实践。我今天讲的主要内容是山西证券大数据和人工智能的应用,以及山西证券构建科技证券的过程。我先介绍一下我们这个部门。今年是山西证券成立三十周年,山西证券是一个历史比较悠久的证券公司,也是国内第一批拿到证券牌照从事证券投资业务的一个证券公司,现在已经发
原创 2021-05-14 08:37:11
1068阅读
为什么会产生大数据技术? 1、一些数据的记录是以模拟形式存在,或者以数据形式存在,但是存贮在本地,不是公开数据资源,没有开放给互联网用户,例如音乐、照片、视频、监控录像等影音资料。现在这些数据不但数据量巨大,并且共享到了互联网上,面对所有互联网用户,其数量之大是前所未有。 2、移动互联网出现后,移动 ...
转载 2021-09-07 16:19:00
38阅读
2评论
  北纬25度,这条被称为“黄金纬线”的地带,连接着全球诸多宜居城市。   巴基斯坦卡拉奇、沙特利雅得、美国迈阿密、墨西哥蒙特雷……环视这条纬线,这些城市大多气候宜人、四季分明,拥有丰富的自然资源与独特的地理优势。   地处黔西南州的兴义市正好坐落在这条纬线上。   金秋时节,行走在黔西南大地,万处,马拉松赛道与山水田园风光交相辉映,游人如织;纳具·和园康养旅游小镇内,古老村寨被
原创 2024-10-17 17:36:22
7阅读
Spark基于RDD近乎完美的实现了分布式内存的抽象,且能够基于位置感知性调度、自动容错、负载均衡和高度的可扩展性,Spark中允许用户在执行多个查询时显式的将工作集缓存起来以供后续查询重用,这极大的提高了查询的速度。
原创 2015-12-15 23:22:47
415阅读
腾讯的Spark集群已经达到8000台的规模,是目前已知最大的Spark集群,每天运行超过1万各种作业。
原创 2015-12-15 23:21:38
522阅读
Spark一体化多元化的解决方案极大的减少了开发和维护的人力成本和部署平台的物力成本,并在性能方面有极大的优势,特别适合于迭代计算,例如机器学习和和图计算;同时Spark对Scala和Python交互式shell的支持也极大的方便了通过shell直接来使用Spark集群来验证解决问题的方法,这对于原型开发至关重要,对数据分析人员有着无法拒绝的吸引力!
原创 2015-12-15 23:24:13
1021阅读
Spark中RDD采用高度受限的分布式共享内存,且新的RDD的产生只能够通过其它RDD上的批量操作来创建,依赖于以RDD的Lineage为核心的容错处理,在迭代计算方面比Hadoop快20多倍,同时还可以在5~7秒内交互式的查询TB级别的数据集。
原创 2015-12-15 23:25:21
477阅读
Spark RDD是被分区的,对于RDD来说,每个分区都会被一个计算任务处理,并决定并行计算的粒度;RD的每次转换操作都会生成新的RDD,在生成RDD时候,一般可以指定分区的数量,如果不指定分区数量,当RDD从集合创建时候,则默认为该程序所分配到的资源的CPU核数,如果是从HDFS文件创建,默认为文件的Block数。
原创 2015-12-15 23:26:18
701阅读
基于RDD的整个计算过程都是发生在Worker中的Executor中的。RDD支持三种类型的操作:Transformation、Action以及Persist和CheckPoint为代表的控制类型的操作,RDD一般会从外部数据源读取数据,经过多次RDD的Transformation(中间为了容错和提高效率,有可能使用Persist和CheckPoint),最终通过Action类型的操作一般会把结果
原创 2015-12-15 23:27:03
673阅读
RDD的所有Transformation操作都是Lazy级别的,实际上这些Transformation级别操作的RDD在发生Action操作之前只是仅仅被记录会作用在基础数据集上而已,只有当Driver需要返回结果的时候,这些Transformation类型的RDD才会真正作用数据集,基于这样设计的调度模式和运行模式让Spark更加有效率的运行。
原创 2015-12-15 23:27:56
432阅读
百度公司是一个典型的大数据公司,公司几乎所有的业务都与大数据密切相关,比如搜索引擎、广告等。在百度公司大数据首席架构师仕鼎看来,大数据业务的发展需要多种人才,包括数据科学家、数据架构师以及数据工程师等。  在这里,数据科学家是一种狭义上的定义,指的是那些具有数据分析能力,精通各类算法,直接处理数据的人员。经数据科学家加工和分析后得到的信息可以作为业务处理流程的输入数据,用来驱动业务的发展。  数
原创 2013-10-28 09:46:30
772阅读
本文根据2023云栖大会演讲实录整理而成,演讲信息如下:演讲人:王 | 阿里云研究员,阿里云计算平台事业部开源大数据平台负责人演讲主题:开源大数据平台3.0技术解读实时化与Serverless是开源大数据3.0时代的必然选择阿里云开源大数据平台孵化于阿里巴巴集团内部业务。早在2009年,我们就开始采用开源 Hadoop 技术体系来服务阿里内部快速发展的电商业务。在阿里巴巴内部这套 Hadoop
原创 2023-11-15 14:01:27
228阅读
昨天上班在谷歌查一个存储优化问题的时候,突然想到一个点:随着数据量的越来越大,我们的存储成本越来越高,无论压缩技术多么牛逼,最终还是得落地物理存储空间,就是得有地方放数据,那如何解决这个问题呢?于是我喝了口水,倒了几颗益达到嘴里,起身去卫生间带薪摸鱼。这是哥的一个习惯,每当解决完一个bug或遇到一些比较难解决问题,我就会去放松放松,所以卫生间叫 rest + room 是有道理的。坐下去打开抖音
原创 2021-03-29 10:04:33
311阅读
每个细胞可存5GB数据,人体有30万亿个细胞,人均身价过亿!
原创 2021-06-23 17:40:58
1292阅读
双一流硕士转行大数据开发!
转载 2021-06-23 09:40:15
464阅读
SparkContext是用户程序和Spark交互的接口,它会负责连接到Spark集群,并且根据系统默认配置和用户设置来申请计算资源,完成RDD的创建等工作。
原创 2015-12-15 23:30:54
533阅读
RDD的saveAsTextFile方法会首先生成一个MapPartitionsRDD,该RDD通过雕工PairRDDFunctions的saveAsHadoopDataset方法向HDFS等输出RDD数据的内容,并在在最后调用SparkContext的runJob来真正的向Spark集群提交计算任务。
原创 2015-12-15 23:31:46
499阅读
RDD在创建子RDD的时候,会通过Dependency来定义他们之间的关系,通过Dependency,子RDD可以获得parent RDD(s)和parent RDD(s)的Partition(s).
原创 2015-12-16 00:01:59
594阅读
  • 1
  • 2
  • 3
  • 4
  • 5