声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。       之前我写过一篇文章叫《Python实现K-Means聚类算法》,这篇文章主要是在之前的基础上介绍K-Means算法的改进版——K-Means+
环境 操作系统Ubuntu 12.04 64位 JDK 1.7 gcc 4.6.3 所需软件包 gcc、ant、lzo、lzo编码/解码器、lzo-devel依赖(lzo-2.06-1.el5.rf.x86_64.rpm、lzo-devel-2.06-1.el5.rf.x86_64.rpm) 概要步骤 1.安装和更新gcc、ant 2.在各个节点安装l
转载 2023-09-13 23:03:59
36阅读
注意:使用xysnc,出现权限问题,使用 root 一、基本配置 1、hosts 和 hostname 2、开启 ssh 和 无密连接 3、固定静态IP 4、配置 xsync 5、安装配置JDK 6、安装配置Hadoop 7、修改权限 (若不修改权限会出现权限问题) sudo chown -R to
原创 2021-07-15 13:47:28
413阅读
# Hadoop 并行任务管理 在大数据处理领域,Hadoop 是一个被广泛使用的开源框架,用于存储和处理大规模数据集。Hadoop 提供了分布式存储和计算能力,通过将数据分散存储在多台计算机节点上,并利用MapReduce算法进行并行处理,实现高效的数据处理和分析。 在 Hadoop 中,任务的并行管理是非常重要的,它可以帮助提高数据处理的效率和速度。本文将介绍 Hadoop 并行任务管理的
原创 2024-07-03 06:55:09
46阅读
如果想实现将 Client端的 File并行写入到 各个Datanode中,首先, 应该修改的是,DistributedFileSystem中的create方法,在create 内部调用FSNamesystem中的方法的时候,应该增加向NameNode发送,上传文件的大小所需要的blocks的数目。然后,调用分配块的相关方法, 在NameNode中 所存放的系统树中添加相关的节点后( INodeF
转载 2023-07-13 14:27:13
41阅读
什么是Hive?Hive:由Facebook开源用于解决海量结构化日志的数据统计。Hive基于Hadoop来完成工作。 Hive是基于Hadoop的一个数据仓库工具(E抽取T转换L加载),可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 1.Hive处理的数据存储在HDFS 2.Hive分析(翻译工作)数据底层的实现是MapReduce
转载 2023-07-12 11:14:05
69阅读
# Hadoop并行上传多个文件实现方法 ## 简介 在使用Hadoop进行大数据处理时,有时我们需要同时上传多个文件到HDFS。本文将教会你如何通过编程实现Hadoop并行上传多个文件功能。 ## 整体流程 下面是整个实现过程的流程图: ```mermaid journey title Hadoop并行上传多个文件实现方法 section 创建配置 section 构建文
原创 2023-12-31 10:29:38
328阅读
最近在做hadoop的时候,总结了一些hadoop的一些基本的功能运用和一些基本性能测试,记录一下,希望可以帮助大家,由于输出信息太多,在这里只介绍命令,具体输出信息大家可以自己试验一下。不同的hadoop版本里自带的测试类也不尽相同,我的版本是2.7.3,里面的测试类是hadoop-mapreduce-client-jobclient.jar,有的hadoop版本里面的类名是hadoop-Tes
Hadoop之MapReduce任务执行流程图中名词的解析1.job表示一个MapReduce作业,负责监控作业的运行状态,它维护了一个作业的状态机,以实现异步执行各种作业相关操作2.Task表示一个MapReduce作业的某个任务,负责监控一个任务的运行状态。它维护了一个任务状态机,以实现各种任务相关的操作3.MRAppMasterMRAppMaster是MapReduce的Applicatio
步入大数据的第一步:必须学会搭建大数据集群的框架那么第一步必须要在linux系统上搭建Hadoop集群目录一、安装并配置虚拟机(centOS7)二、克隆出三台虚拟机三、安装及配置JDK四、安装Hadoop五、Hadoop的三种运行模式学习过程1.本地运行模式官方Grep案例过程记录官方WordCount案例过程记录2.伪分布式运行模式启动HDFS并运行MapReduce程序启动YARN并运行Map
   并行写,并行读,写多份 HDFS 是在一个大规模分布式服务器集群上,对数据分片后进行并行读写及冗余存储。因为 HDFS 可以部署在一个比较大的服务器集群上,集群中所有服务器的磁盘都可供 HDFS 使用,所以整个 HDFS 的存储空间可以达到 PB 级容量。· HDFS 的关键组件有两个,一个是 DataNode,一个是 NameNode。&n
基于物品的推荐算法算法步骤 已知以上用户对物品的行为,假设点击行为得1分,搜索行为得3分,收藏5分,付款10分。请为用户推荐合适的物品。1、从以上信息构建用户、物品的评分矩阵,如下图2、由以上矩阵构建物品的相似度矩阵 如1号物品和2号物品,算出其第一行和第二行的余弦相似度,即可得出其第1号物品和第2号物品的相似度,最终得出6*6相似度矩阵3、相似度矩阵*评分矩阵=推荐列表 左边是第二步得到的相似度
转载 2023-08-31 21:22:11
44阅读
我们已经知道Hadoop=HDFS(文件系统,数据存储技术相关)+ MapReduce(数据处理)。本章就来学习MapReduce数据处理。MapReduce是什么     MapReduce是现今一个非常流行的分布式处理数据的编程模型。它被设计用于并行计算海量数据。第一个提出该技术框架的是Google公司,而Google的灵感则来自于函数式编程语言。如LISP, S
背景最近在学习大数据hadoop篇, 为了提高学习效率、巩固学习成果,特此记录一下。心跳机制心跳机制:datanode每隔一个固定时间会与namenode进行一次通信,以证明自己是alive同时让namenode知道集群中有多少datanode属于存活状态以及各副本与数据块的分布情况datanode每隔一个固定时间要发送一个心跳数据包给namenode,如果隔了一段时间namenode没有收到da
转载 2023-07-13 17:41:03
62阅读
需要注意的是,lzo本身是不支持split的。故如果需要使用lzo,一般有2种办法: 1)合理控制生成的lzo大小,建议不要超过一个block大小。因为如果没有lzo的index文件,该lzo会由一个map处理。如果lzo过大,会导致某个map处理时间过长。 2)配合lzo.index文件使用。好处是文件大小不受限制,可以将文件设置的稍微大点,这样有利于减少文件数目。坏处是生成lzo.index
转载 2023-08-04 11:57:41
180阅读
前面我们已经介绍过了,Hadoop内部有两个master/slave架构,分别是:namenode+datanode,resourcemanager+nodemanager,分别对应Hadoop的两个核心组件Hdfs和Yarn。你可能已经发现了问题,这两个架构都是单点的,也就是说只要namenode/resourcemanager宕机,那么整个集群就不能工作了,即使可以恢复数据,但是在生产系统中也
转载 2023-07-12 12:39:26
40阅读
HadoopHadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。 HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以
转载 2024-08-02 13:14:46
10阅读
1.用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。HDFS是一个hadoop平台分布式文件系统,主要是用来存储和读取数据的。工作过程:首先工作过程可以分为分为写操作和读操作两步。(1)写操作:假设有一个100M大小的文件a,系统使用者将文件a写入到HDFS上。HDFS按默认配置(块大小为64M)。HDFS分布在三个机架上Rack1,Rack2,Rack3。
在中小规模集群下,集算器显著提升hadoop并行计算性能,接近传统数据库。
原创 2013-11-06 14:04:19
578阅读
distcp是一个分布式复制程序,改程序可以从Hadoop文件系统间复制大量数据,也可以将大量的数据复制到Hadoop中distcp的典型应用是在两个HDFS集群间传输数据hadoop distcp hdfs://binghe101/foo hdfs:/...
原创 2022-04-22 17:02:43
286阅读
  • 1
  • 2
  • 3
  • 4
  • 5