聊聊HDFS 大数据大数据,先解决存数据的问题,那不得不说hdfs,干什么用的呢,就是负责数据的存储。号称hadoop的大本营,即hadoop分布式文件系统。hdfs架构分为3个部分:nameNode(nn):用于存储文件的元数据,元数据是什么举个例子:比如文件名,文件目录结构,文件的一些属性(生产时间,副本数量,文件权限)......,以及每个文件的块列表和块所在的dataNode等(一会
转载
2021-02-02 20:53:23
319阅读
2评论
前言 上回说到安装了jdk和hadoop,接下来我们要真正的搭建一个集群跑一跑!集群搭建方案直接上图:准备3台客户机(关闭防火墙,修改主机名称,这个步骤上上回已经处理了,好像忘记修改主机名称了,这次搞它一下!)克隆虚拟机192.168.2.132,192.168.2.133 这块大家自行克隆配置ip(192.168.2.132,192.168.2.133 操作一致)cd /etc/sysco
转载
2021-01-20 18:43:53
411阅读
2评论
前言 上回说到已经创建好虚拟机hadoop101 并且可以进行联网,安装一些常用命令。这回我们继续搭建hadoop。首先在opt 目录下创建module 和 software 两个文件夹,module存放解压后的软件包,software存放压缩的软件包。cd /opt
mkdir module
mkdir software复制代码jdk安装和hadoop安装 上传jdk包hadoop包
转载
2021-01-30 13:05:36
217阅读
2评论
前言 一电脑,一包烟,一篇教程学半天,调试半天都不对,想送作者上青天。创建虚拟机 创建Linux CentOS虚拟机3台:hadoop001 , hadoop002 , hadoop003 网络适配器我这里没有使用桥接,使用的是NAT模式,用于共享主机的ip地址,说白了只能我自己的安装虚拟机的当前机器才能访问我的虚拟机,大家可以使用桥接模式哈,可以和同局域网的同事秀一下,但是过一
转载
2021-02-01 12:49:36
421阅读
2评论
1、etc里都是配置文件 2、sbin 里都是hadoop启动停止和集群启动停止的命令 在配置集群的时候需要使用 整个集群全部启动 启动集群的hdfs 启动yarn 3、share存放说明文档 4、bin 存放hadoop和hdfs ...
转载
2021-10-29 11:37:00
125阅读
2评论
1、hadoop的运行模式包括:本地模式、伪分布式模式、完全分布式模式 ...
转载
2021-10-30 11:10:00
201阅读
2评论
一、hadoop是一个分布式系统基础架构。分布式解决海量数据的存储和分析计算。大部分框架都依赖于hadoop。 三篇论文需要了解。 二、hadoop的优势 1、高可靠性:hadoop底层维护多个数据副本,所以即使hadoop某个计算元素或存储出现故障们都不会导致数据的丢失。 2、高扩展性:在集群间分 ...
转载
2021-10-17 21:03:00
178阅读
2评论
一、大数据技术生态体系 二、虚拟机环境准备 1、克隆虚拟机 在虚拟机上右键-管理-克隆 一般的可以把一个虚拟机的环境或者需要的东西都配置好,然后克隆几个,在克隆的虚拟机上进行操作,这样出现了什么问题不至于重新开始配置环境。 2、修改ip地址 尤其对于克隆的虚拟机一定要修改ip地址 对于centos8 ...
转载
2021-10-29 11:29:00
260阅读
2评论
随着互联网及企业信息化的发展的不断完善,在享受互联网带来的便利的同时,随之也会产生庞大的结构化数据与非结构化数据,利用这些数据进行存储、处理与分析可以更加丰富互联网对生活带来的便利性,往往丰富的应用需要依赖于更多的数据,随着数据的快速增长,如何有效的存储、管理与计算,成为了需要解决的问题。Hadoop第一代大数据引擎孕育而生,早期,Hadoop的诞生是由搜索引擎Nutch开发团队为了解决海量的爬虫
原创
2022-01-09 20:23:06
217阅读
点赞
文章目录1 分布式文件系统1.1 计算机集群结构1.2 分布式文件系统的结构2 HDFS简介3 HSFD相关概念3.1 块3.2 名称节点3.2.1 名称节点的数据结构3.2.2 FsImage文件3.2.3 名称节点的启动3.2.4 SecondaryNameNode的作用3.3 数据节点4 HDFS体系结构4.1 HDFS体系结构概述4.2 HDFS命名空间管理4.3 通信协议4.4 客户端
转载
2024-09-10 13:17:19
48阅读
大数据技术原理与应用学习笔记(八)本系列历史文章Hadoop再探讨Hadoop的优化与发展Hadoop1.0到Hadoop2.0不断完善的Hadoop生态系统HDFS2.0新特性HDFS HA(高可用性)HDFS FederationYARN——新一代资源管理调度框架MapReduce1.0中的缺陷YARN设计思路YARN体系结构ResourceManagerApplicationMasterN
转载
2024-02-29 10:52:29
80阅读
一、入门 1、常用端口号 2.x 50070:查看HDFS Web-UI 8088:查看MapReduce运行情况 19888:历史服务器 9000:hdfs客户端访问集群 50090:SecondaryNameNode 3.x: 50070-->9870 9000-->8020 3、Hadoop的
原创
2022-05-27 18:03:45
143阅读
第一章:hadoop介绍大数据技术介绍数据的来源在早期,数据是通过调查问卷的方式进行,但互联网的兴起,数据的调查不需要问卷方式,可以通过用户的操作行为来记录并进行统计,且并数据是大规模的存储在存储服务器集群中。什么是大数据大数据(bigdata),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量
转载
2023-09-14 13:22:54
60阅读
这是一个非常经典的案例: 就是统计单词的个数,统计个数的就可以使用到wordcount 这是在尚硅谷的课程中做的笔记: ...
转载
2021-10-30 11:26:00
187阅读
2评论
大数据概念:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据特征:分布式结构: 由于分布在不同的主机上的进程,协同工作,一起才能构成整个应用。4V特征: Volumn:体量大,单个数据体量大,数据条数也是海量。 Velocity:数据快,数据时效性高,由于数据基数大的原因,数据的操作必须要高速。 Variaty:样式多,可以存储多种类型的数据,包括结构化数据,
转载
2023-10-21 21:57:02
198阅读
R 和 Hadoop 大数据471e0b28932 译者:飞龙 协议:CC BY-NC-SA 4.0 前言 企业每天获取的数据量呈指数增长。现在可以将这些海量信息存储在像 Hadoop 这样的低成 ...
一、什么是大数据进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势,已经很难估计全世界的电子设备中存储的数据到底有多少,描述数据系统的数据量的计量单位从MB(1MB大约等于一百万字节)、GB(1024MB)、TB(1024GB),一直向上攀升,目前,PB(等于1024TB)级的数据系统已经很常见,随着移动个人数据、社交网站、科学计算、证券交易、网站日志、传
转载
2018-03-10 13:57:48
484阅读
大数据技术原理与应用——大数据处理架构 Hadoop1.概述(1)Hadoop 简介Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System) 和 M
转载
2023-07-12 14:44:57
127阅读
伪分布式模式的配置是按照完全分布式模式来搭建的,但是他只有一台服务器,适合用于学习。 下面的文件配置都是尚硅谷课程中做的笔记: 配置集群: 需要配置文件: 第一个文件: 第二个文件: 第三个文件: 默认的副本数是3, 接下来就要启动集群, 第一步:格式化namenode(只有第一次需要格式化,格式化 ...
转载
2021-10-30 16:43:00
373阅读
2评论
# Hadoop大数据技术基础与应用 PDF 实现指南
## 引言
随着数据量的不断增长,Hadoop作为一种广泛使用的大数据处理框架,已经在各行各业得到了广泛应用。许多初学者希望能够深入理解Hadoop,并应用到实际项目中。本文将会指导您如何实现“Hadoop大数据技术基础与应用 PDF”,从而帮助您掌握这项技术。
## 流程概述
以下是实现“Hadoop大数据技术基础与应用 PDF”的