上一份工作主要负责大数据平台的建设,在这个过程中积累了一些Hadoop生态组件的搭建和使用笔记,由于时间关系,不打算去修改其中的错别字和排版问题,直接释出原始笔记。搭建安装三个核心组件一个hadoop基本集群,牵涉三个组件:hdfs 负责分布式的文件存储yarn 负责分布式的资源管理mr 负责分布式计算安装配置环境变量配置etc/hadoop/hadoop-env.sh、etc/hadoop/ha
转载
2021-04-04 22:58:27
362阅读
2评论
1.查看hdfs文件的block信息 不正常的文件 hdfs fsck /logs/xxx/xxxx.gz.gz -files -blocks -locations Connecting to namenode via http://xxx-01:50070/fsck?ugi=xxx&files=1
转载
2019-07-15 11:51:00
123阅读
2评论
HDFS的设计目标通过上一篇文章的介绍我们已经了解到HDFS到底是怎样的东西,以及它是怎样通过多副本机制来提供高可靠性的,我们可以发现HDFS设计目标可以总结为以下几点:非常巨大的分布式文件系统运行在普通廉价的硬件上易扩展、为用户提供性能不错的文件存储服务HDFS的架构我们通过官网的文档来了解HDFS的基础架构(http://hadoop.apache.org/docs/current...
转载
2021-06-10 21:06:14
179阅读
hadoop学习笔记(五):HDFS阅读目录一、HDFS体系结构回到顶部一、HDFS体系结构1 HDFS假设条件 数据流访问 大数据集 简单相关模型 移动计算比移动数据便宜 多种软硬件平台中的可移植性2...
转载
2019-04-23 09:42:00
153阅读
2评论
HDFS的设计目标通过上一篇文章的介绍我们已经了解到HDFS到底是怎样的东西,以及它是怎样通过多副本机制来提供高可靠性的,我们可以发现HDFS设计目标可以总结为以下几点:非常巨大的分布式文件系统运行在普通廉价的硬件上易扩展、为用户提供性能不错的文件存储服务HDFS的架构我们通过官网的文档来了解HDFS的基础架构(http://hadoop.apache.org/docs/current...
转载
2021-06-10 21:06:12
68阅读
HDFS (分布式文件系统),默认的最忌本的存储单位是64M(可修改通过修改hdfs-core.xml文件内容来改变hdfs的块大小时,在修改后上传的文件会使用新设置的数据块大小)顺手找了一下为1.什么 是64M &nbs
转载
精选
2015-01-15 10:58:53
404阅读
hadoop学习笔记(八):Java HDFS API阅读目录一、使用HDFS FileSystem详解回到顶部一、使用HDFS FileSystem详解HDFS依赖的第三方包: hadoop 1.x版本: ...
转载
2019-04-23 09:43:00
124阅读
2评论
4.删除HDFS上的文件package proj;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;public class DeleteFile { pub
转载
2013-11-23 16:27:00
85阅读
2评论
http://www.teamwiki.cn/hadoop/thrift thrift编程1.上传本地文件到HDFSpackage proj;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;im
转载
2013-11-23 11:29:00
81阅读
2评论
HDFS的Java访问接口 1)org.apache.hadoop.fs.FileSystem 是一个通用的文件系统API,提供了不同文件系统的统一访问方式。 2)org.apache.hadoop.fs.Path 是Hadoo...
转载
2021-04-10 20:24:33
406阅读
2评论
HDFSHDFS设计基础与目标:冗余:硬件错误是常态流式数据访问。即数据比量读取而非随机读写,Hadoop擅长做的是数据分析而不是事务处理。大规模数据集简单一致性模型。为了降低系统复杂程度,对文件采用一次性写多多次读的逻辑设置,即是文件一经写入,关闭,再也不能修改。程序采用“数据京近”原则分配节点执行。 OLTP:偶尔随机性德读写 HDFS体系架构: NameNode
原创
2014-09-03 23:34:05
1251阅读
hadoop学习笔记(六):HDFS Shell命令阅读目录二、HDFS管理命令 三、HDFS文件管理工具 四、HDFS任务调度命令一、HDFS文件命令以下是比较重要的一些命令: 1 [root@master0...
转载
2019-04-23 09:42:00
135阅读
2评论
阅读目录一、HDFS读取文件流程: 二、HDFS文件写入流程:回到顶部一、HDFS读取文件流程: 详解读取流程:Client调用FileSystem.open()方法: 1 FileSystem通过RPC与NN...
转载
2019-04-23 09:42:00
163阅读
2评论
本文主要介绍了HDFS的体系结构,包括NameNode的作用、NameNode文件结构,NameNode元数据fsimage和edits文件、及NameNode的启动过程。DataNode的作用、DataNode文件结构、及DataNode的启动过程。同时还介绍了Secondary Namenode的作用及文件结构。
原创
2014-08-24 16:56:54
1579阅读
点赞
1评论
介绍通过hdfs shell和java api两种方式操作hdfs
原创
2015-07-19 12:39:59
9499阅读
HDFS概述HDFS产出背景及定义随着数据量越来越大,在一个操作系统存不下所有的数据,那么就
原创
精选
2023-03-06 20:16:14
234阅读
在这里我给大家继续分享一些关于HDFS分布式文件的经验哈,其中包括一些hdfs的基本的shell命令的操作,再加上hdfs java程序设计。在前面我已经写了关于如何去搭建hadoop这样一个大数据平台,还没搭好环境的童鞋可以转到我写的这篇文章Hadoop在Ubuntu的安装,接下来就开始我们本次的经验分享啦。HDFS的Shell命令操作HDFS的格式化与启动首次使用HDFS时,需要使用forma
转载
2021-04-29 14:30:44
720阅读
2评论
一、分布式文件系统与HDFS数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。 是一种允许文件通过网络在多台主机上分享的文件系统
原创
2022-02-18 10:31:38
67阅读