原创 2021-04-25 22:56:51
709阅读
原创 2021-07-12 16:00:40
199阅读
随着互联网和移动互联网的发展,时下我们正处在一个大数据的时代。在数据金山的诱惑下,各个机构纷纷开始探索从数据中提取洞见并指导实践
原创 2023-06-15 00:09:52
108阅读
1.Hadoop 生态圈Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠、高效、可伸缩等特点。 Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同,各种组件相继出现,丰富Hadoop生态圈,目前生态圈结构大致如图所示: 根据服务对象和层次分为:数据来源层、数据传输层、数据存储层、资源管理层、数据计算层、任务调度层、业务模型层。1.1.HDFS(分布式文件系统)H
大数据平台架构大数据技术已经被应用到各行各业,涉及人们生活的方方面面。大数据技术大大提高了数据存储和计算能力,从而为企业快速决策提供了数据支撑,能够助力企业改进业务流程、控制成本、提高产品质量,应用大数据技术为企业核心竞争力的提升打下了坚实的基础。大数据技术在企业项目开发中主要涉及数据采集、数据存储和数据计算三个方面:数据采集是利用采集技术将各种数据源、不同格式的数据快速采集到大数据平台。数据
原创 2022-03-23 14:27:52
10000+阅读
HDFS是整个大数据架构的底层,它提供了一个文件系统Spark(Spark core(RDD)) 和 MapReduce 是一个
原创 2022-05-26 00:20:48
348阅读
转载 2021-06-19 08:52:00
129阅读
2评论
一.Hadoop简介Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同,各种组件相继出现,丰富Hadoop生态圈,目前生态圈结构大致如图所示:二.Ha
转载 2020-09-25 13:42:59
894阅读
1点赞
大数据Hadoop生态圈-组件介绍 Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠、高效、可伸缩等特点。 Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同,各种组件相继出现,丰富Hadoop生态圈,目前生态圈结构大致如图所示: 根据服务对象和层次分为:数据来源
转载 2021-06-03 08:49:00
121阅读
2评论
  早在2011年9月份就开始用了3个月时间学习hadoop、hbase、hive、nutch等东西,但当时没有明确的想法和充足的时间,后来就没有继续深入下去。有幸在今年春节之前的1个月的时间,做了hadoop、hbase相结合的简单开发,对hadoop相关有更深的理解,特在此补上年前未写的文章。 1、hadoop之hdfs: hadoop的底层存储文件系统协议,是hadoop
hadoop:://hadoop.apache.org/docs/stable/hive:://cwiki.apache.org/confluence/display/Hive/GettingStartedhbase:://hbase.apache.org/book.htmlyarn:://hadoop.apache.org/docs/cu...
原创 2022-04-22 13:33:20
140阅读
hadoop:https://hadoop.apache.org/docs/stable/hive:https://cwiki.apache.org/confluence/display/Hive/GettingStartedhbase:https://hbase.apache.org/book.htmlyarn:https://hadoop.apache.org/docs/cu...
原创 2021-08-26 09:13:50
190阅读
yarn 的执行流程 Spark wordCount 执行流程 mr 的shuffle 过程
转载 2017-07-19 15:19:00
512阅读
2评论
1.hadoop架构及作用(1)Commonhadoop核心组件,基本jar包依赖,公共工具程序(2)HDFS(Hadoop Distributed File System)分布式文件系统,解决分布式存储(3)MapReduce分布式计算框架(4)Yarn分布式资源管理系统2.HDFS架构及功能(1)client 客户端linux window/sheel COMMAND-LINE java/sc
首先,大数据技术尚处在落地应用的初期,大数据生态圈尚未成熟,所以当前大型科技公司也纷纷开始布局打造自己的大数据生态体系,从大数据自身的价值空间来看,大数据生态圈的想象空间会非常大。生态圈的基础是产业链,所以要想了解大数据生态圈,首先就要从了解大数据的产业链开始。大数据产业链当前可以按照数据采集、数据存储、数据分析和数据应用来划分产业分工,不同的科技企业会专注于不同的环节,从而实现自己的价值增量。由
前言整理了一下目前常用的hadoop组件,后续将会对这些组件的具体应用场景和使用细节进行展开分析。如果大家发现有更好的建议欢迎大家在下方留言。生态圈数据存储:HDFSHDFS,它是 Hadoop 技术体系中的核心基石,负责分布式存储数据,你可以把它理解为一个分布式的文件系统。此文件系统的主要特征是数据分散存储,一个文件存储在 HDFS 上时会被分成若干个数据块,每个数据块分别存储在不同的服务器上。
  早在2011年9月份就开始用了3个月时间学习hadoop、hbase、hive、nutch等东西,但当时没有明确的想法和充足的时间,后来就没有继续深入下去。有幸在今年春节之前的1个月的时间,做了hadoop、hbase相结合的简单开发,对hadoop相关有更深的理解,特在此补上年前未写的文章。 1、hadoop之hdfs: hadoop的底层存储文件系统协议,是h
转载 2023-07-12 13:18:13
95阅读
好程序员大数据培训分享之Hadoop的生态系统,这次,我整理了一下hadoop的生态系统。hadoop生态系统,意思就是以hadoop为平台的各种应用框架,相互兼容,组成了一个独立的应用体系,也可以称之为生态圈。通过以下的图:hadoop生态系统我们可以可以总结如下常用的应用框架(图中没有的,我也列出了几个):1,HDFS(hadoop分布式文件系统)是hadoop体系中数据存储管理的基础。他是一
download:学习Scala进击大数据Spark生态圈大数据如火如荼,如果你想深入学习大数据,Scala是你必学必会的内容,这将是你成为“高薪”程序员的起点,关于Scala的介绍、课程很多,但能做到如此聚焦生产真实应用的课程凤毛麟角,所以,你千万不能错过。适合人群想系统学习Scala的小伙伴想更好更深入的学习大数据热门框架(Spark&Kafka&Flink等)的小伙伴想转型大
原创 2021-03-07 02:38:17
397阅读
1. Hadoop概述1.1 Hadoop是什么Hadoop 是一个由Apache基金会所开发的分布式系统基础架构主要解决海量数据的存储和海量数据的分析计算问题广义上来说,Hadoop 通常是指一个更广泛的概念——Hadoop生态圈1.2 Hadoop发展简史        Hadoop 是 Apache Lucene
转载 2023-07-03 20:00:23
231阅读
  • 1
  • 2
  • 3
  • 4
  • 5