一.前提:    三台虚拟机(静态IP,关闭防火墙,修改主机名,配置免密登录,集群时间同步)  --前面的文章已经提过了,不再赘述。二.在/opt目录下创建文件夹mkdir -p /opt/lagou/software --软件安装包存放目录 mkdir -p /opt/lagou/servers --软件安装目录三.Hadoop下载地址:https://archive.apache.org/
转载 2021-04-29 13:41:54
438阅读
2评论
一.三台虚拟机关闭防火墙查看防⽕火墙状态 systemctl status firewalld二.三台机器器关闭selinuxvi /etc/selinux/config三.三台机器免密登录1.配置hostname与IP映射 --上篇文章已经讲过了,不再赘述。2.在所有主机上创建⽬目录并赋予权限   mkdir /root/.ssh chmod 700 /root/.ssh 3.第三步,在三台机器
转载 2021-04-20 21:13:59
314阅读
2评论
一、发音是:[hædu:p]。二、简介:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System)
转载 2017-02-05 18:47:00
188阅读
2评论
一、环境准备 1.说明 hadoop的下载来源有: 官方版本:http://archive.apache.org/dist/hadoop/ CDH版本:http://archive.cloudera.com/cdh5 企业应用一般选择CDH版本,因为比较稳定。 若决定使用CDH版本,则要保证相关软件
转载 2018-03-21 16:19:00
90阅读
2评论
一、异常现象 启动hadoop时,datanode启动失败,出现如下异常: 二、异常原因 原因是 用户 ray 不具备文件夹所属权 三、异常解决 通过命令: 将文件夹ray及其子文件夹的所属权赋给用户 ray 然后再重新启动即可 四、参考资料 自己奇思妙想
转载 2018-03-23 14:55:00
306阅读
2评论
1. 介绍 本文介绍的Hadoop权限管理包括以下几个模块:(1) 用户分组管理。用于按组为单位组织管理,某个用户只能向固定分组中提交作业,只能使用固定分组中配置的资源;同时可以限制每个用户提交的作业数,使用的资源量等(2) 作业管理。包括作业提交权限控制,作业运行状态查看权限控制等。如:可限定可提交作业的用户;可限定可查看作业运行状态的用户;可限定普通
最近在忙于写论文等工作,有一段时间没有看Hadoop源码了,觉得不能中断,所以就自己思考着实现hdfs文件系统的本地可视化界面。从昨天上午构思,到今天中午,完成了基本的功能。(1)设计思路:在hadoop节点上,运行程序后,可显示可视化界面,和普通的资源管理器类似,实现简单的文件树查看、创建文件、删除文件等操作。目前界面设计如下:主要界面包括工具栏、文件树、查看区、状态栏四个部分。工具栏提供如下功
一、HDFS永久性数据结构 1.1 namde的目录结构[root@datanode1 name]# cd /data0/hadoop/dfs/name/current/ [root@datanode1 current]# ls edits  edits.new  fsp_w_picpath&nbs
一、项目介绍   推荐系统的web项目已经完成,现在在此基础上增加HDFS文件管理功能,便于管理HDFS上的文件数据,本文基本参考了fansy1990的HDFS文件管理系统这个项目,改动的地方是将原来分散开的功能集中在了一个页面和处理了中文显示乱码。二、项目实现  1、打开菜单显示根目录文件及文件夹,点击文件夹进入下一目录,并可输入文件名、所有者进行检索 
转载 2023-08-02 13:30:47
385阅读
1. 背景介绍本文档介绍如何配置Hadoop HTTP Web控制台以要求用户身份验证。默认情况下,Hadoop HTTP Web控制台(ResourceManager,NameNode,NodeManagers和DataNodes)允许访问而无需任何形式的身份验证。可以将Hadoop HTTP Web控制台配置为使用HTTP SPNEGO协议(Firefox和Internet Explorer等
转载 2023-08-17 12:54:28
1280阅读
一、大数据概述大数据:主要解决海量数据的采集、存储和分析计算问题存储单位:bit 、Byte、KB、MB、GB、TB、PB、EB、ZB、YB特点:大量、高速、多样、低价值密度应用:广告推荐、零售、物流仓储、保险、金融、房产、人工智能、5G、物联网、VR二、Hadoop入门1. 概念<1>分布式系统基础架构。 <2>解决海量数据的存储和海量数据的分析计算问题。 <3&g
转载 2023-09-27 22:12:18
65阅读
大数据之Hadoop平台:Hadoop多用户管理      前言      最近有一些需求,就是需要在hadoop集群中实现多用户管理,因此在网上搜了很多的资料。其中有一种方法感觉还是比较可行,链 接:http://cn.soulmachine.me/blog/20140206/大概方式是:先新建一个用户test1,然
转载 2023-09-13 23:43:28
45阅读
1 概述HDFS(Hadoop Distributed File System)是一个文件系统,用于存储文件,通过目录树来定位文件;随着数据量激增,单个操作系统无法对海量数据进行存储,因此将数据分散到多个系统中,而为了方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统,HDFS就是其中的一种。它具有以下优点适合海量数据处理:能够处理百万规模以上的文件数量,数据存储可达
转载 2023-09-08 21:58:03
46阅读
没有hdfs,大数据就是空话 ——me(开个玩笑哈哈哈)1、hdfs入门、hdfs介绍HDFS(Hadoop Distributed File System),也叫分布式文件系统。是一个Apache Software Foundation项目,是Apache Hadoop项目的一个子项目。 Hadoop非常适合存储大型数据(比如TB级别和PB级别的数据),其原因就是它使用Hdfs作为数据的存储系统
转载 2023-08-18 19:44:10
102阅读
hdfs标题栏概述 数据节点 数据节点卷故障 快照 启动进度 实用工具工具栏浏览文件系统 日志: hadoop进程日志信息,出现问题时,需要查询日志,关注度一般 日志水平 指标 配置 进程线程转储数据节点概述datanodes:显示所有datanode节点信息,关注度一般 Datanode Volume Failures:失败的数据节点卷,关注度低 snapshot: 快照,关注度低 startu
转载 2023-09-20 07:14:41
503阅读
一、核心组件1、Hadoop通用组件 -  Hadoop Common包含了其他hadoop模块要用到的库文件和工具2、分布式文件系统 - Hadoop Distributed File System (HDFS)运行于通用硬件上的分布式文件系统,高吞吐,高可靠3、资源管理组件 - Hadoop YARN于2012年引入的组件,用于管理集群中的计算资源并在这些资源上调度用户应用4、分布式
Apache Hadoop是Apache的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构那什么是MapReduce呢? 举例来说,统计一系列的文档中的词汇。文档数量规模很大,有1000万个文档,英文单词的总数可能只有3000。那么input M=10000000,output N=3000.于是我们搞了10000个PC做Mapper
转载 2023-10-08 08:26:00
74阅读
Hadoop各个组件的关联图如下:Resource Manager 是资源管理器,它是所有组件的中心,负责集群所有资源的调度APP mstr是应用程序管理器,负责作业的运行时的追踪和管理,并协调resource manager 请求资源,获取资源创造containerNode manager 是节点资源管理器,运行在改服务器节点上,负责对该节点资源和其它信息的监控,并发送给resource man
转载 2023-09-13 23:32:57
57阅读
为了可以方便地在hadoop管理界面(namenode和jobtracker)中自定义展示项,使用代理servlet的方式实现了hadoop管理界面。首先,在org.apache.hadoop.http.HttpServer中的构造函数public HttpServer(String name, String bindAddress, int port,boolean findPort, Co
转载 2023-07-03 17:01:10
311阅读
在大数据的世界中,Hadoop已然成为处理大型数据集的重要工具。然而,随着数据量的不断增长,如何有效地管理Hadoop中的磁盘空间也成了一项关键任务。HL是在Hadoop集群上监控、管理和优化磁盘使用情况的工作。本文将带您深入了解如何解决“Hadoop磁盘管理”问题,从环境预检到故障排查,我们将一一解读。 ### 环境预检 为了确保Hadoop集群能够顺利运行,首先要进行环境预检。我们需要整理
原创 6月前
25阅读
  • 1
  • 2
  • 3
  • 4
  • 5