什么是hadoop?  Hadoop 是 Apache 旗下的一个用 java 语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。  hadoop提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理。  狭义上来说hadoop 指 Apache 这款开源框架,它的核心组件有:hdfs(分布式
转载 2023-07-12 15:41:12
79阅读
# 如何在Hadoop集群中使用HDFS上传文件 在大数据时代,Hadoop集群成为处理海量数据的重要工具。其中,HDFSHadoop Distributed File System)是Hadoop的核心模块,它为大数据存储提供了高效和可靠的解决方案。本文将介绍如何在Hadoop集群中将文件上传到HDFS,包括代码示例和序列图。 ## HDFS简介 HDFS是一个基于Java的分布式文件系
原创 1月前
68阅读
HDFS只是Hadoop最基本的一个服务,很多其他服务,都是基于HDFS展开的。所以部署一个HDFS集群,很很核心的一个动作,也是大数据平台的开始。
原创 精选 2017-10-11 16:44:40
6249阅读
3点赞
添加白名单添加新服务器服务器间数据均衡1. 添加白名单白名单:表示在白名单的主机IP地址可以,用来存储数据。企业中:配置白名单,可以尽量防止黑客恶意访问攻击。配置白名单步骤:1)在NameNode节点的/opt/module/hadoop-3.1.3/etc/hadoop目录下分别创建whitelist 和blacklist文件     &nbsp
文章目录迁移之前需要先考虑的事:迁移方案:迁移工具distCp概述:原理使用方法:Map数目不同HDFS版本间的拷贝Map/Reduce和副效应迁移期间新老两个集群的资源消耗是怎样的如何提高数据迁移速度带宽如何限制迁移之后的数据一致性如何校验迁移之后的文件权限迁移过程中老集群目录新增了文件,删除了文件怎么办迁移中遇到文件已存在的情况怎么办?迁移了一半,任务失败了怎么办?遇到需要对一个文件增量同步
转载 2023-09-20 08:51:48
131阅读
已经过无数人进行搭建试验,成功率100% namenode和datanode的比较: 相同点: 1. 每台机器都放置相同的程序 (五个 .xml 文件) 2. 每台机器都配置相同环境变量   不相同: 3. 第一台机器能够无密码登录到 2345 的机器上 4. 第二台机器能够无密码登录到 1
1、背景部门有个需求,在网络互通的情况下,把现有的hadoop集群(未做Kerberos认证,集群名为:bd-stg-hadoop)的一些hdfs文件拷贝到新的hadoop集群(做了Kerberos认证,集群名为zp-tt-hadoop)如果是两个都没有做安全认证的集群互传文件,使用distcp可以很快实现。通过查阅资料,在cdh的官网上竟然有这么神奇的一个参数可以解决这么一个奇葩的需求。
转载 2023-07-12 15:55:26
184阅读
hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。 注意:apache提供的hadoop-2.2.0的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库, 所以如果在64位的操作上安装hadoop-2.2.0就需要重新在64操作系统上重新编译 (建议第一次安装用32位的系统) 安装前的准备: 1).安装PieTTY远程桌面连接工具&nbs
项目中需要进行国产化适配,需要把线上生产环境迁移到新国产化服务器集群上,记录一下数据迁移的实际操作情况一、hdfs数据进行迁移使用hadoop的命令distcp进行hdfs数据迁移:单层目录结构 命令格式如下:hadoop distcp -update [源hdfs目录] [目的hdfs目录] >> digtcp.log 2>&1  实例如下:hadoop distcp
转载 2023-09-22 12:55:22
87阅读
hdfs haadmin查看帮助命令hdfs haadmin -getServiceState nn1 nn2注意:其中nn1 和 nn2是namenode的server id,不是机器名在hdfs.xml中找到service id,配置文件内容如下<property>     <name>dfs.nameservices</name>     <valu
原创 2019-09-22 04:24:57
2279阅读
第133讲:Hadoop集群监控Ganglia架构设计和运行机制详细解析学习笔记可监控和显示集群中节点的各种状态信息,如CPU/内存、磁盘利用率,IO负载,网络流量等。ganglia可将历史数据以曲线形式非常友好地以php页面形式展现,本身有很好的扩展性,允许用户加入自己想监控的信息。要监控特殊信息时方便。下图是ganglia架构图: ganglia包含几个部分,这几个部分间通信是通过x
CDH搭建Hadoop集群(Centos7)一、说明 节点(CentOS7.5) Server || Agent CPU node11 Server || Agent 6G node12 Agent 2G node13 Agent 2G #下载mysql-connector-java http://dev.mysql.com/downloads/connector/j/ 二、
一、启动Hadoop集群1.格式化到/opt/server/hadoop/sbin文件目录下格式化HDFS文件(如果不会可以看后面哦)(第一次部署才格式化,不需要每次都格式化,如果出错就删除data再格式化)2.启动hadoop集群 ①./start-dfs.sh ② ./start-yarn.sh(yarn服务)③./start-all.sh 3.查看进程jps4.
一、前提介绍环境:centos7 虚拟机三台 软件:jdk1.8、hadoop2.7.2环境准备:设置虚拟机静态ip、域名、关闭防火墙,这些操作就不举例了,网上搜索一下即可我这里为了方便设置三台虚拟机为:hadoop102、hadoop103、hadoop104,这里域名需要在三机器上都配置,因为后续配置文件中使用这样的方式。二、上传解压tar包,配置环境上传jdk、hadoop 包到 /opt/
转载 2023-09-06 21:09:07
32阅读
本博客用到的虚拟机客户机已将前五步完成,从6)开始 现有三台客户机,hadoop112,hadoop113,hadoop114。其中hadoop112已完成JDK、Hadoop的安装以及环境变量的配置。所以需要将112上的两者复制到113和114上。1、将JDK用scp方法从112复制到113上scp -r jdk1.8.0_212/ dlw@hadoop113:/opt/module/从113上
## Hadoop HDFS 集群通信认证方案 在 Hadoop 中,HDFS 是分布式文件系统,用于存储大量数据并提供高可靠性。然而,由于 HDFS 是一个分布式系统,集群中的各个节点需要进行通信,因此需要确保通信过程中的安全性和认证。下面将介绍 Hadoop HDFS 集群通信认证的方案以及代码示例。 ### Kerberos 认证 Kerberos 是一种网络身份验证协议,可以确保在不
原创 3月前
26阅读
HDFS常用命令】一、appendToFile:将一个或多个目标文件append到hdfs文件中,目标文件可以为本地文件或者stdin。    使用方式:hdfs dfs -appendToFile <localFile or -> <hdfs-path or hdfs URL>    1) ./hdfs dfs -appendTo
转载 2023-07-12 18:09:21
717阅读
一、hadoop集群在namenode格式化(bin/hadoop namenode -format)后重启集群会出现如下Incompatible namespaceIDS in … :namenode namespaceID = … ,datanode namespaceID=…错误,原因是格式化namenode后会重新创建一个新的namespaceID,以至于和datanode上原有的不一致。
转载 7月前
5阅读
一、    设置固定ip(1)    重启服务命令:service networkrestart(2)    进入  /etc/sysconfig/network-scripts,修改ifcfg-eth0文件命令:cd  /etc/sysconfig/network-scriptsvi i
HDFS高可用性集群搭建1.环境准备主机从机从机主机名anshun112anshun113anshun114hostnameanshun112anshun113anshun114IP地址192.168.153.112192.168.153.113192.168.153.114用户名zhangyongzhangyongzhangyong内存大小/boot 200M /swap 2048M / 剩余空
  • 1
  • 2
  • 3
  • 4
  • 5