一:了解集群的原理:二:集群环境的搭建之前的准备工作:集群环境的搭建需要退回到hadoop分布式搭建之前:这个时候可以在安装hadoop之前在虚拟机中拍一个快照如果没有拍快照怎么解决:1,先停掉Hadoop的运行 :stop-dfs.sh2检查是否停掉:jps:看里面是否还有与Hadoop相关的程序在运行3如果没有相关的进程运行就删除hadoop的安装软件:rm -rf h
转载
2024-01-31 21:52:29
71阅读
一、实践内容1.什么是HDFSHDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流式数据访问和处理超大文件的需求而开发的分布式文件系统。整个系统可以运行在由廉价的商用服务器组成的集群之上,它所具有的高容错性、高可靠性、高可扩展性、高获得性、高吞吐率等特征,为海量数据提供了不怕故障的存储,给超大数据集的应用
转载
2024-06-12 00:36:07
64阅读
目录一、Hadoop集群规划二、配置样板节点1、虚拟机硬件信息2、本地登录配置(1)root用户登录(2)关闭防火墙(3)修改主机名和IP地址(4)配置hosts(5)创建用户设置密码(6)添加sudo权限(7)切换用户验证sudo命令(8)创建软件安装目录3、远程登录配置(1)Xshell远程登录(3)安装jdk和hadoop(4)修改hadoop配置文件(5)配置主机免密登录三、克
转载
2024-02-02 18:10:30
261阅读
了解HadoopHadoop定义: Hadoop是大数据领域中非常重要的基础技术,他是一个海量数据存储、处理系统,也是一个生态圈(HDFS,MapReduce,Hive,Hbase等)Hadoop作用 Hadoop最初用作Nutch底层的海量数据存储和处理,后来人们发现他也非常适合大数据场景下的数据存储和处理,主要用作海量离线数据的存储和离线数据的计算。hadoop安装Hadoop 的安装有三种方
转载
2024-09-13 13:53:53
38阅读
前言学校开设了Hadoop大数据分析的课程,节奏快,步骤多,经过了这一个阶段的学习,还有一些知识点会摸棱两可,于是要求自己对整个过程梳理一下,总结记录一下学习的过程,一来往后可以回顾一下,二来和大家做一个分享,以下开始进入正题。所使用到的工具及环境VMware Workstation MyEclipse2014 Xshell 和 Xftp Navicat Premium 12 JDK 1.7.0_
转载
2023-07-14 16:09:10
133阅读
第0章大数据概论一、大数据概念大数据:Big Data,指的是无法在一定时间范围内使用常规软进行捕捉,管理和处理的数据的集合。需要新的处理模式来进行决策力。洞察收取海量、高增长和多样化的信息进行管理。二、大数据的特点大量高速多样性低密度值三、大数据的应用场景物流仓储零售旅游商品广告推荐保险金融人工智能…四、大数据的部门组织结构平台组:数据仓储组:数据挖掘:报表工程:第一章Hadoop简介一、什么是
转载
2023-07-25 20:09:02
189阅读
简介:目前业界主流存储与分析平台以Hadoop为主的开源生态圈,MapReduce作为Hadoop的数据集的并行运算模型,除了提供Java编写MapReduce任务外,还兼容了Streaming方式,可以使用任意脚本语言来编写MapReduce任务,优点是开发简单且灵活。
原创
精选
2018-04-08 17:04:42
10000+阅读
点赞
1评论
## 自动部署loongarch hadoop大数据平台的流程
### 流程图
```mermaid
flowchart TD
A[准备环境] --> B[下载Hadoop安装包]
B --> C[解压Hadoop安装包]
C --> D[配置Hadoop集群]
D --> E[启动Hadoop集群]
```
### 步骤详解
#### 1. 准备环境
在进行Hadoop大
原创
2023-11-23 10:27:17
66阅读
一、Hadoop简介Hadoop是一个由Apache基金会开发的分布式系统基础架构,主要解决海量数据的存储(HDFS)和分析(MapReduce)问题。它具有高可靠性、高扩展性、高效性、高容错性等特点,是目前大数据领域最核心的生态系统基础。二、环境准备在开始安装Hadoop之前,我们需要准备以下环境:操作系统:Linux(推荐Ubuntu或CentOS)Java环境:JDK 1.8或以上版本SSH
系统环境: CentOS7.9关闭: selinux、firewalld软件版本: jdk-16_linux-x64 hadoop-2.10.1 一、创建两个目录mkdir -p /opt/softwaremkdir -p /opt/module二、上传hadoo
原创
2021-05-04 16:46:08
351阅读
一、概述在 Hadoop 2.0.0 之前,一个集群只有一个 Namenode,这将面临单点故障问题。如果 Namenode 机器挂掉了,整个集群就用不了了。只有重启 Namenode ,才能恢复集群。另外正常计划维护集群的时候,还必须先停用整个集群,这样没办法达到 7 * 24 小时可用状态。Hadoop 2.0 及之后版本增加了 Namenode 高可用机制,这里主要讲 Hadoop HA o
原创
精选
2022-10-31 10:51:06
1325阅读
MapReduce简介MapReduce是hadoop四大组件之一(HDFS,MapReduce,YARN和Comment),是一种分布式计算编程模型,用于解决海量数据的计算问题。MapReduce思想原理MapReduce采用分而治之的思想,将大文件切割成片,然后由多个map task并行处理,处理完成后交由reduce再做合并,最后输出结果MapReduce执行过程这里我们以经典例子WordC
转载
2024-01-11 09:10:09
95阅读
1. 大数据的概念大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程 优化能力的海量、高增长率和多样化的信息资产。主要解决,海量数据的存储和海量数据的分析计算问题。1.2 大数据的包含以下4个特点:1.Volume(大量)2.Velocity(高速)3.Variety(多样)4
转载
2023-10-15 14:23:55
62阅读
hadoop是什么?Hadoop就是为大数据应运而生、Hadoop 框架是用 Java 编写的、Hadoop是Apache下的子项目、Hadoop是分布式系统基础架构,它主要是用于大数据的处理、Hadoop可以看成是一个平台或者生态系统。Hadoop生态系统包含哪些组件?有分布式存储HDFS,有并行计算 MapReduce,有NoSQL数裾库的HBase,有数据仓库工具 Hive, 有 Pig 工
转载
2023-09-06 20:43:14
63阅读
一、什么是大数据,什么是Hadoop 大数据:指无法再一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多元化的信息资产。 数据存储单位:bit<Byte&
转载
2024-02-22 15:39:19
64阅读
大数据在近些年来越来越火热,人们在提到大数据遇到了很多相关概念上的问题,比如云计算、 hadoop等等。那么,大数据是什么、Hadoop是什么,大数据和Hadoop有什么关系呢? 大数据概念早在1980年,著名未来学家阿尔文·托夫勒提出的概念。2009年美国互联网数据中心证实大数据时代的来临。随着谷歌 MapReduce和 GoogleFile System (GFS)的发布,大数据不
转载
2023-09-14 13:16:55
60阅读
前言做大数据相关的后端开发工作一年多来,随着Hadoop社
转载
2022-09-23 20:41:07
279阅读
文章目录Hadoop集群安装部署Hadoop集群初体验hadoop集群的部署Hadoop集群安装部署1、服务器主机名和IP配置(三台)2、修改每个主机的/etc/hosts文件,添加IP和主机名的对应关系(三台)3、管理节点到从节点配置无密码登录4、配置jdk 1.8(三台)5、关闭防火墙(三台)6、关闭selinux(三台)vi
原创
2022-03-02 14:36:10
191阅读
独立模式,自己独立一套集群(master/client/slave),Spark 原生的简单集群管理器, 自带完整的服务, 可单独部署到一个集群中,无需依赖任何其他资源管理系统, 使用 Standalone 可以很方便地搭建一个集群,一般在公司内部没有搭建其他资源管理框架的时候才会使用。缺点:资源不利于充分利用
原创
2022-06-12 22:37:04
984阅读
3图
Hive是为了解决hadoop中mapreduce编写困难,提供给熟悉sql的人使用的。只要你对SQL有一定的了解,就能通过Hive写出mapreduce的程序,而不需要去学习hadoop中的api。 在部署前需要确认安装jdk以及Hadoop 如果需要安装jdk以及hadoop可以参考我之前的博客
转载
2016-08-16 12:11:00
136阅读
2评论