一、入门 1、常用端口号 2.x 50070:查看HDFS Web-UI 8088:查看MapReduce运行情况 19888:历史服务器 9000:hdfs客户端访问集群 50090:SecondaryNameNode 3.x: 50070-->9870 9000-->8020 3、Hadoop的
原创
2022-05-27 18:03:45
143阅读
Hadoop Cluster SetupPurpose Prerequisites Installation Configuring Hadoop in Non-Secure Mode Configuring E...
转载
2019-12-11 21:52:00
117阅读
2评论
1、更改网卡的 ip 地址2、更改 /etc/hosts 中的 master 对应的 ip (这个一定要写对啊)3、hadoop namenode -format之前的准备阶段(删除一些文件 重要) 还要删除这个文件夹 hadoop-2.4.1/logs4、hadoop namenode -format5、再更改win系统 的hosts 配置VMware ...
原创
2021-08-31 09:32:56
711阅读
1、更改网卡的 ip 地址2、更改 /etc/hosts 中的 master 对应的 ip (这个一定要写对啊)3、hadoop namenode -format之前的准备阶段(删除一些文件 重要) 还要删除这个文件夹 hadoop-2.4.1/logs4、hadoop namenode -format5、再更改win系统 的hosts 配置VMware ...
原创
2022-03-25 14:12:16
419阅读
序列化 序列化(serialization)是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。反序列化(deserialization)是指将字节流转回结构化对象的逆过程。序列化在分布式数据处理的两大领域经常出现:进程间通信和永久存储在Hadoop中,系统中多个节点上进程间的
原创
2022-06-10 20:00:07
67阅读
先决条件
安装jre1.6 rpm包 http://www.java.com/zh_CN/download/manual.jsp
chmod u+x jre-6u21-linux-i586-rpm.bin
./jre-6u21-linux-i586-rpm.bin
设置密钥登录不然每次启动时都要输入密码
$ ssh-keygen -t dsa
原创
2010-08-22 11:29:25
683阅读
1、etc里都是配置文件 2、sbin 里都是hadoop启动停止和集群启动停止的命令 在配置集群的时候需要使用 整个集群全部启动 启动集群的hdfs 启动yarn 3、share存放说明文档 4、bin 存放hadoop和hdfs ...
转载
2021-10-29 11:37:00
125阅读
2评论
一、hadoop是一个分布式系统基础架构。分布式解决海量数据的存储和分析计算。大部分框架都依赖于hadoop。 三篇论文需要了解。 二、hadoop的优势 1、高可靠性:hadoop底层维护多个数据副本,所以即使hadoop某个计算元素或存储出现故障们都不会导致数据的丢失。 2、高扩展性:在集群间分 ...
转载
2021-10-17 21:03:00
178阅读
2评论
1、hadoop的运行模式包括:本地模式、伪分布式模式、完全分布式模式 ...
转载
2021-10-30 11:10:00
199阅读
2评论
一、大数据技术生态体系 二、虚拟机环境准备 1、克隆虚拟机 在虚拟机上右键-管理-克隆 一般的可以把一个虚拟机的环境或者需要的东西都配置好,然后克隆几个,在克隆的虚拟机上进行操作,这样出现了什么问题不至于重新开始配置环境。 2、修改ip地址 尤其对于克隆的虚拟机一定要修改ip地址 对于centos8 ...
转载
2021-10-29 11:29:00
260阅读
2评论
HDFS(Hadoopdistributedfilesystem):Namenode:Datanode管理メタ情報管理Datanode:分散してファイルを保存同じファイルが三つのノード以上に保持し、Datanodeの障害に対応できるように設定するのが一般的クライアントは①Namenodeにメタ情報を問い合わせ②Datanode上のファイルにアクセスするMapReduce:MapReduceとは、デ
翻译
2020-04-20 11:10:47
540阅读
文章目录01 引言02 HDFS概述2.1 HDFS定义2.2 HDFS优缺点03 HDFS架构3.1 NameNod
原创
2022-03-25 14:30:30
1015阅读
一、HDFS设计基础和目标# 硬件错误是常态,以此要有冗余。# 流式数据访问。数据批量读取(而不是随机读取)、Hadoop擅长数据分析(而不是事务处理)。# 大规模数据集# 简单一致模型。为降低系统复杂性,对文件采用一次写入多次读取的方式(文件写入之后就不能修改了)# 程序采用“数据就近”原则分配节点执行二、HDFS体系框架# NameN
原创
2022-10-28 11:34:58
170阅读
聊聊HDFS 大数据大数据,先解决存数据的问题,那不得不说hdfs,干什么用的呢,就是负责数据的存储。号称hadoop的大本营,即hadoop分布式文件系统。hdfs架构分为3个部分:nameNode(nn):用于存储文件的元数据,元数据是什么举个例子:比如文件名,文件目录结构,文件的一些属性(生产时间,副本数量,文件权限)......,以及每个文件的块列表和块所在的dataNode等(一会
转载
2021-02-02 20:53:23
319阅读
2评论
前言 上回说到安装了jdk和hadoop,接下来我们要真正的搭建一个集群跑一跑!集群搭建方案直接上图:准备3台客户机(关闭防火墙,修改主机名称,这个步骤上上回已经处理了,好像忘记修改主机名称了,这次搞它一下!)克隆虚拟机192.168.2.132,192.168.2.133 这块大家自行克隆配置ip(192.168.2.132,192.168.2.133 操作一致)cd /etc/sysco
转载
2021-01-20 18:43:53
411阅读
2评论
1.什么是hadoop ? hadoop是一个高度容差的分布式文件系统,采用Master/Slave结构.由HDFS,MapReduce,HBase,Hive,ZooK
转载
2022-10-20 09:35:35
25阅读
Hadoop概述Hadoop概述之Hadoop名字的由来:Hadoop这个名字并不是什么具有实际意义的单词,而是Hadoop项目作者的孩子给一个棕×××大象玩具的命名Hadoop概述之Hadoop介绍:在学习一门框架时,我们要善用官方文档,例如可以去官网查询官方对这个框架的准确定义,Hadoop官网对Hadoop的定义如下:WhatIsApacheHadoop?TheApache™Hadoop®pr
原创
2018-03-22 15:27:05
2438阅读
点赞
初识Hadoop
原创
2018-11-03 15:18:21
440阅读
大数据特点 4V:volume variety velocity value 海量性(volume):大数据的数据量很大,每天我们的行为都会产生大批量数据 多样性(variety):大数据的类型多种多样,比如视频、音频和图片都属于数据 高速性(velocity):大数据要求处理速度快,比如淘宝双十一
原创
2021-07-20 09:21:08
76阅读
1.概念 Hadoop 是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。 Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。 Hadoop 还是可伸缩的,能
转载
2014-03-23 18:46:00
101阅读
2评论