XY个人笔记序 上一篇把自己对HDFS的理解记录了一下,开始这两篇是计划写在一起的,后来因为这个MapReduce理解起来相对于HDFS是有一点点难度的就分开了,然后不断的反复的查找看理解,但是又不知道怎么继续写了。参考一些文章来做一下记录和个人的理解吧。 一、MapReduce(小广告^_^:在浅析一·Hadoop核心架构之HDFS浅析里有论文中英文版下载链接)  &
简介一种分布式的计算方式指定一个Map(映#x5C04;)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组Pattern map: (K1, V1) → list(K2, V2) combine: (K2, list(V2)) → list(K2, V2) reduce: (K2, list(V2)) → l
文章目录一、MapReduce工作流程1.1 MapTask工作机制1.2 Shuffle工作机制1.3 ReduceTask工作机制二、InputFormat数据输入2.1 数据切片2.2 FileInputFormat实现类①TextInputFomat②KeyValueInputFomat③NLineInputFomat④CombineFileInputFormat⑤FixedLength
转载 2024-09-29 08:49:55
67阅读
 HDFS中的数据按照一定策略分布在集群中的多个数据节点上,但在某些情况下,数据的分布也会出现不均衡的情况,比如说集群新增加了节点,在新增加的节点上就没有数据存在,虽说之后新增的数据会分配到新节点上,不过,对于已有数据,新节点和原有节点上的分布很不均衡,而且这还会导致在分配MapReduce任务的时候新机器分配不到可执行的任务分配,白白浪费了新增节点的计算能力。而对于一个真实的生产环境来
转载 2024-05-09 15:41:30
56阅读
 大数据课程之Flink 第一章 Flink简介 1、初识Flink  Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。   Flink起源于Stratosphere项目,Stratosphere是在2010~201
HDFS基本介绍初次接触HADOOP HDFS,从它得定位与优缺点角度开始,是一个好方法。本文为个人翻译的官方文档,水平极其有限。总体介绍HDFS是Hadoop的分布式文件系统,该组件被设计为高度容错且部署在低成本硬件上,提供给了应用程序数据一个高吞吐量的连接。HDFS放宽一些POSIX的要求,以使流访问到文件系统的数据。HDFS最初建基础设施的阿帕奇Nutch的网络搜索引擎项目。目标与期望1.硬
转载 2023-10-24 06:44:50
48阅读
快照HDFS快照是一个只读的基于时间点文件系统拷贝。快照可以将失效的集群回滚到之前的一个正常的时间点上。总览HDFS 快照是一种只读的特定时间点的文件系统的复制,快照可以对目录或者整个文件系统进行。作用防止用户的错误操作:管理员可以通过以滚动的方式周期性设置一个只读的快照,这样就可以在文件系统上有若干份只读快照。如果用户意外地删除了一个文件,就可以使用包含该文件的最新只读快照来进行回复。备份:管理
转载 2024-04-03 16:29:02
106阅读
我们使用shell只进行一些简单的操作,还是用Java接口比较多。因此我们要使用Java接口的方式来操作HDFS我们new一个project 叫hadoop0106,然后再创建一个文件夹(new一个folder)叫lib,把jar包导入进去在hadoop2.2.0/share/hadoop/common 里面的三个jar包 Ctrl+c在hadoop2.2.0/share/hadoop/commo
转载 2023-12-08 23:40:00
7阅读
HDFS(分布式文件存储系统)--执行流程及API操作目录HDFS(分布式文件存储系统)--执行流程及API操作流程一、读取流程/下载二、写入流程/上传三、删除流程API操作一、准备步骤二、API操作流程一、读取流程/下载客户端发起RPC请求到NameNodeNameNode在接收到请求之后会进行校验: 校验指定路径是否存在校验文件是否有存在如果文件存在,NameNode就会读取元数据,同时
转载 2024-04-24 10:32:05
144阅读
文章目录写流程读流程 写流程大致流程客户端先向NameNode进行通信,确认文件路径以及父路径是否正确,并获取负责接受块的DataNode位置。然后客户端按照文件顺序逐个将block传递给一个DataNode,这个DataNode接收到文件后会负责向另一个DataNode复制副本,以此连续直到副本数到达要求详细流程DistributeFileSystem(FileSystem的子类)调用crea
转载 2024-04-01 19:56:50
39阅读
客户端文件读数据流程:1、客户端通过调用FIleSystem 的 open方法获取需要读取的数据文件。2、dfs 通过RPC来调用NameNode,获取要读取的数据文件对应的block存放在哪些DataNode上。3、客户端先到距离最近的DataNode上调用FSDataInputStream 的read 方法,将数据从DataNode传输到客户端。4、当读取完所有的数据后,FSDataInput
转载 2024-04-26 21:34:14
29阅读
# 在 HDFS执行 Python 脚本的指南 随着大数据技术的发展,Hadoop 分布式文件系统 (HDFS) 越来越受到开发者的欢迎。通过 HDFS,我们能够存储和处理大规模数据集。今天,我们将介绍如何在 HDFS执行 Python 脚本。以下是整个流程的概述: ## 流程步骤表 | 步骤 | 描述 | |------|-----
原创 8月前
23阅读
HDFS介绍:http://blog.sina.com.cn/s/blog_67331d610102v3wl.htmlHadoop Shell命令参考教程:http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.htmlFS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。
文章目录HDFS常见功能集群间数据拷贝文件归档快照管理回收站 HDFS常见功能集群间数据拷贝scp实现两个远程主机之间的文件复制scp -r hello.txt root@bigdata111:/user/itstar/hello.txt // 推 push scp -r root@bigdata112:/user/itstar/hello.txt hello.txt // 拉 pull
转载 2024-03-23 15:21:29
206阅读
# Java执行HDFS上的JAR文件 在Hadoop生态系统中,HDFS是一种分布式文件系统,而Java是一种广泛使用的编程语言。在本文中,我们将探讨如何使用Java程序来执行存储在HDFS上的JAR文件。我们将使用Hadoop的HDFS API来实现这一目标。 ## HDFS概述 Apache Hadoop Distributed File System(HDFS)是一个可扩展的、可靠的
原创 2024-01-27 11:46:27
103阅读
目录1 引言1.1 目的1.2 读者范围2 综述3 代码详细分析3.1 启动Hadoop集群3.2 JobTracker启动以及Job的初始化3.3 TaskTracker启动以及发送Heartbeat3.4 JobTracker接收Heartbeat并向TaskTracker分配任务3.5 TaskTracker接收HeartbeatResponse3.6 MapReduce任务的运行3.6.1
对于一个初学者来说,HDFS、Hive、Hbase常用命令比较多,一时间又难以记住,这里做一个小小的整理总结1.  Hadoop命令文件浏览,不能递归显示hadoop fs –ls /[path]递归显示文件hadoop fs –lsr /[path]统计文件大小(-h 人性化显示,GB,MB,KB)hadoop fs –du -h /[path]只统计文件夹大小hadoop fs –d
转载 2023-08-04 10:14:48
129阅读
文章目录在Hive中执行shell命令和hdfs命令1. 执行shell命令2. 执行hdfs命令DDL操作1. Hive中的数据库操作2. 创建表2.1 建表示例2.2 内部表2.3 外部表2.4 分区表2.5 创建分桶表3. 修改表3.1 重命名表3.2 增加列3.3 改变列3.4 替换列3.5 增加分区3.6 删除分区4. 删除表DML操作1.加载数据1.1 put1.2 load2. 导
转载 2023-08-07 17:13:35
262阅读
说明    对hive基本命令进行实战,要求本机安装着mysql和启动hdfs。     hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,     并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。&nbsp
转载 2023-08-30 11:19:22
169阅读
查看数据库 show databases; 进入到某个数据库 use default; 展示有哪些表 show tables; 不进入Hive的命令行窗口就可以执行SQL语句 [root@master test]# hive -f hive-seclet.sql hive (default)> quit; hive (default)> exit; exit:先提交数据,然后退
转载 2023-09-13 16:56:06
156阅读
  • 1
  • 2
  • 3
  • 4
  • 5