yarn 的执行流程 Spark wordCount 执行流程 mr 的shuffle 过程
转载
2017-07-19 15:19:00
515阅读
2评论
随着互联网和移动互联网的发展,时下我们正处在一个大数据的时代。在数据金山的诱惑下,各个机构纷纷开始探索从数据中提取洞见并指导实践
原创
2023-06-15 00:09:52
108阅读
从 2012 年到 2015 年,大数据持续发威,IDC 市场调查机构预测 2017 年大数据市场将价值 324 亿,拥有这样“Big Data、Big Deal”远见的人,正在利用大数据激荡出最有创意的构想,用数据的力量来创造出大量的价值。从让资料搜寻分析平台,到利用大数据帮助癌症治疗,大数据新创公司这几年内如雨后春笋般出现,2015 年这些“Big Data Startups”也会持续挖掘大
HDFS是整个大数据架构的底层,它提供了一个文件系统Spark(Spark core(RDD)) 和 MapReduce 是一个
原创
2022-05-26 00:20:48
348阅读
大数据平台架构大数据技术已经被应用到各行各业,涉及人们生活的方方面面。大数据技术大大提高了数据存储和计算能力,从而为企业快速决策提供了数据支撑,能够助力企业改进业务流程、控制成本、提高产品质量,应用大数据技术为企业核心竞争力的提升打下了坚实的基础。大数据技术在企业项目开发中主要涉及数据采集、数据存储和数据计算三个方面:数据采集是利用采集技术将各种数据源、不同格式的数据快速采集到大数据平台。数据存
原创
2022-03-23 14:27:52
10000+阅读
一.Hadoop简介Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同,各种组件相继出现,丰富Hadoop生态圈,目前生态圈结构大致如图所示:二.Ha
转载
2020-09-25 13:42:59
897阅读
点赞
大数据Hadoop生态圈-组件介绍 Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠、高效、可伸缩等特点。 Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同,各种组件相继出现,丰富Hadoop生态圈,目前生态圈结构大致如图所示: 根据服务对象和层次分为:数据来源
转载
2021-06-03 08:49:00
121阅读
2评论
配合视频服用效果更佳 视频地址一.Spark 基础环境及Spark Core
原创
2022-03-04 18:51:00
171阅读
最近可能会用到圈图,学习一下用R语言的circlize包绘制圈图的方法,通过help(package="circlize")查看帮助文档看起来还...
原创
2022-03-09 10:28:11
149阅读
配合视频服用效果更佳 视频地址一.Spark 基础环境及Spark Core
原创
2021-06-21 10:32:26
318阅读
hadoop:https://hadoop.apache.org/docs/stable/hive:https://cwiki.apache.org/confluence/display/Hive/GettingStartedhbase:https://hbase.apache.org/book.htmlyarn:https://hadoop.apache.org/docs/cu...
原创
2021-08-26 09:13:50
190阅读
hadoop:://hadoop.apache.org/docs/stable/hive:://cwiki.apache.org/confluence/display/Hive/GettingStartedhbase:://hbase.apache.org/book.htmlyarn:://hadoop.apache.org/docs/cu...
原创
2022-04-22 13:33:20
140阅读
斯图飞腾与东华大数据签署战略合作协议,正式达成战略合作伙伴关系。
原创
2021-07-21 10:29:53
216阅读
很多老观念早该颠覆了,比如“路遥知马力,日久见人心”。据统计,现代人看篇文章平均不超过5分钟、每次嘿咻平均不超过6分钟。如此讲究效率,哪有心思体验“马力”,哪有工夫跟你“日久”!大数据时...
转载
2021-06-11 09:31:30
312阅读
1.Hadoop 生态圈Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠、高效、可伸缩等特点。 Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同,各种组件相继出现,丰富Hadoop生态圈,目前生态圈结构大致如图所示: 根据服务对象和层次分为:数据来源层、数据传输层、数据存储层、资源管理层、数据计算层、任务调度层、业务模型层。1.1.HDFS(分布式文件系统)H
转载
2023-08-31 10:28:23
159阅读