一,hadoop介绍 hadoop 是apache 的开源软件,用于分布式任务计算,包括mapreduce(首先由谷歌提出,并应用) 分布式计算框架和hdfs 文件系统两部分。hadoop 让开发人员在不了解底层细节的情况下,轻松开发分布式应用。 二,hadoop job提交流程 1)JobClient 运行Job 任务 JobClient.run
转载 2023-11-08 18:15:14
80阅读
词频统计    1.下载喜欢的电子书或大量文本数据,并保存在本地文本文件中    2.编写map与reduce函数    3.本地测试map与reduce   4.将文本数据上传至HDFS上   5.用hadoop streaming提交任务hadoop jar $STREAM \ -f
转载 2023-06-28 18:38:26
142阅读
主从结构:在一个集群中,会有部分节点充当主服务器的角色,其他服务器都是从服务器的角色,当前这种架构模式叫做主从结构。 主从结构分类: 1、一主多从 2、多主多从 Hadoop中的HDFS和YARN都是主从结构,主从结构中的主节点和从节点有多重概念方式: 1、主节点 从节点 2、master slav
转载 2023-01-16 15:53:45
68阅读
出于种种原因,想要搭建一个小集群,来搞搞数据处理。 实践环境: ubuntu10.04+jdk1.6.20+hadoop-0.20.2+zookeeper3.3.4+hbase0.90.6 本来是准备好了三台机器,结果后面一台挂了,所以只有两台了=。= 机器名          
1目的及要求基于Hadoop平台,实现广度优先搜索(BFS)的Mapreduce算法找到图中两个点的最短路径。给定一个图<V,E>(采用邻接列表输入文件格式:源节点ID,相邻节点ID,源节点到相邻节点的距离),基于MapReduce的方式,采用广度优先搜索(BFS)找到两个顶点的最短距离。 2实验环境本实验基于虚拟机环境,所采用的软件及其版本如下:虚拟机软件:Oracle V
转载 2023-06-14 22:23:10
138阅读
最近写了个web程序来调用hadoop的api,对hadoop自带的管理方式进行了二次开发,加强了可操作性。现在简单的介绍下功能和方法。hadoop版本为1.xx文件查看功能先来个页面截图这个功能实现主要是利用了Hadoop的FileSystem类得到HDFS文件的对象,并利用此提供的方法对HDFS进行操作。其中文件类型的判断用到的是FileStatus类。2.作业监控功能  
原创 2014-07-31 11:44:44
1763阅读
1点赞
2评论
教程 | Hadoop集群搭建和简单应用
原创 2021-07-07 13:03:18
297阅读
(2)在Eclipse中配置开发hadoop程序,下载hadoop-0.20.2-cdh3u1.tar.gz。 ·         Step1. 在eclipse中,新建一个Java 项目,填入Project name,在Contents中,选择 “Create project from existing source
转载 2023-07-13 16:48:31
49阅读
目录引言HDFS 数据块的设计数据块应该设置成多大?抽象成数据块有哪些好处?操作块信息的命令HDFS 中节点的设计有几种节点类型?用户如何访问 HDFS?如何对 namenode 容错?如何更快的访问 datanode 中访问频繁的块?如何扩展 namenode 以存储更多的文件?HDFS 中的高可用性设计如何处理 namenode 单点失效问题?namenode 间如何共享编辑日志?nameno
我个人接触hadoop仅仅不到一年,因为是业余时间学习,故进度较慢,看过好多视频,买过好多书,学过基本知识,搭建过伪分布式集群,有过简单的教程式开发,恰逢毕业季,面试过相关岗位,自认为路还很远,还需一步一步积累。今天总结一篇关于hadoop应用场景的文章,自认为这是学习hadoop的第一步,本文主要解答这几个问题:hadoop的十大应用场景?hadoop到底能做什么?2012年美国著名科技博客Gi
转载 2023-05-31 16:18:15
135阅读
从数据爆炸開始。。。 1.1 第三次工业革命 第一次:18世纪60年代。手工工厂向机器大生产过渡,以蒸汽机的发明和使用为标志。 第二次:19世纪70年代。各种新技术新发明不断被应用于工业生产,以电力的发明使用为标志。 第三次:20世界四五十年代末。以高新技术为代表的新科学技术革命,以原子能、航天技术
转载 2017-06-20 20:44:00
126阅读
2评论
# Hadoop 简单认证概述 Hadoop 是一个开源的分布式计算框架,广泛应用于处理大规模数据。在大数据环境中,数据安全性尤为重要,尤其是在集群环境中。因此,Hadoop 提供了多种认证方式,其中简单认证是最基础的一种。 ## 什么是简单认证? 简单认证是指一种基于用户名和密码的身份验证方式。它适用于小型集群或开发环境。虽然简单认证并不提供强认证机制,但对于初学者和小型项目,它能够提供基
原创 10月前
148阅读
毕业前就听说了Hadoop,今天突然想了解一下。在网上搜集一些关于Hadoop的介绍,顺便把它整理一下,发在博客上和网友分享,高手勿喷。 一个分布式系统基础架构。由Apache基金会开发。用户能够在不了解分布式底层细节的情况下。开发分布式程序。充分利用集群的威力快速运算和存储。Hadoop实现了一个
转载 2017-07-31 14:12:00
228阅读
2评论
谈大数据就必须谈Hadoop,这就是Hadoop在大数据领域的地位。Hadoop自身及生态发展都很快,目前已经到3.x。本文先谈一些基础的东西,“键值对的思考”小节是本文比较有意思和值得阅读的内容。(一)Hadoop起源Hadoop起源于Google在2003年和2004年发表的两篇论文,GFS和MapReduce。Hadoop的项目发起者Doug Cutting当时正在研究开源的网页搜索引擎Nu
谁在用 Hadoop这是个问题。在大数据背景下,Apache Hadoop已经逐渐成为一种标签性,业界对于这一开源分布式技术的了解也在不断加深。但谁才是 Hadoop的最大用户呢?首先想到的当然是它的“发源地”,像Google这样的大型互联网搜索引擎,以及Yahoo专门的广告分析系统。也许你会认为, Hadoop平台发挥作用的领域是互联网行业,用来改善分析性能并提高扩展性。其实 Hadoop应用
转载 2023-09-26 15:50:50
55阅读
=============hadoop-0.12.2-core  版本=========
原创 2022-08-26 14:43:43
144阅读
Hadoop中的MapReduce是一种编程模型,用于大规模数据集的并行运算 文章目录一、ReduceJoin 是什么二、ReduceJoin案例分析1、需求分析2、撸代码1)Bean对象2)Mapper3)Reducer 一、ReduceJoin 是什么在现实世界,很多事情都是有关联的,这些关联的事务被抽象成数据的话,如果放在一个文件中是很麻烦的,所以人们一般会用多个文件进行存储,Join做的工
转载 2023-07-21 14:21:07
225阅读
hadoop简介一、hadoop中的组件HDFS(框架):负责大数据的存储 YARN(框架): 负责大数据的资源调度MR(编程模型): 使用Hadoop制定的编程要求,编写程序,完成大数据的计算完成大数据的计算步骤: (1)写程序,程序需要复合计算框架的要求 java —>main—>运行 MapReduce(编程模型)----》Map–Reducer (2) 运行程序,申请计算资源(
转载 2023-07-24 13:15:00
56阅读
Hadoop应用案例分析:在Yahoo的应用, 关于Hadoop技术的研究和应用,Yahoo!始终处于领先地位,它将Hadoop应用于自己的各种产品中,包括数据分析、内容优化、反垃圾邮件系统、广告的优化选择、大数据处理和ETL等;同样,在用户兴趣预测、搜索排名、广告定位等方面得到了充分的应用。   在Yahoo!主页个性化方面,实时服务系统通过Apache从数据库中读取user到inter
转载 2024-01-16 16:00:52
25阅读
MapReduce 应用举例:单词计数  WorldCount可以说是MapReduce中的helloworld了,下面来看看hadoop中的例子worldcount对其进行的处理过程,也能对mapreduce的执行过程有一个清晰的认识,特别是对于每一个阶段的函数执行所产生的键值对单词 计数主要完成的功能是:统计一系列文本文件中每个单词出现的次数,如下图所示。下面将 通过分析源代码帮助读
转载 2024-01-10 14:10:03
44阅读
  • 1
  • 2
  • 3
  • 4
  • 5