1 关于HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Hive提供了一系列工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQ
原创 2014-03-18 11:50:17
1347阅读
的共享存储和分析系统。HDFS实现存储,而MapReduce实现分析处理。这两部分是Hadoop的核心。
原创 2022-08-21 00:21:36
110阅读
hadoop系列之基础系列 浪1234 浪尖聊大数据一、Hadoop基础1、分布式概念        通过爬虫-->爬到网页存储-->查找关键字        一台机器存储是有限的        Google采用多台机器,使用分布式的概念去存储处理        【关于计算】10TB数据,一台机器无法处理,可以用10台机器处理        每台机器可以处理1TB        Map
原创 2021-03-17 11:20:12
185阅读
hadoop基础概念及基本使用相关源码
原创 2021-07-27 10:29:04
204阅读
引言Hadoop自从出现到现在被广泛应用,经理了很多个版本的衍化,甚至
原创 2023-04-03 14:40:13
413阅读
Hadoop集群、hadoop软件版本特性对比说明、Hadoop生态圈等。
推荐 原创 2013-01-05 11:07:14
5318阅读
9点赞
5评论
1、合并MapReduce集群与HDFS集群 在调度运行一个作业时,将map任务等直接运行于要处理的数据所存储的HDFS的数据节点上,可避免大量的数据传输,实现数据处理的本地性,进而大大提高整个过程的完成效率,这也正是Hadoop集群的部署方式。如下图所示。 在一个小于50个节点的小规模集群中,可以将NameNode与JobTracker合并于同一个节点上运行。而整个集群共有
转载 精选 2013-03-12 10:58:45
841阅读
一、Hadoop HA 高可用集群整体架构      在 Hadoop 1.0 时代,Hadoop 中的HDFS 集群中面临一个问题,即NameNode 单点问题,如果在集群运行过程中,NameNode出现故障宕机后,那么整个集群将会面临瘫痪。        Hado
转载 2023-08-04 12:41:41
46阅读
Hadoop学习之路(二)Hadoop发展背景 Hadoop产生的背景 1. HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。 2. 2
原创 2022-06-19 02:08:54
165阅读
Hadoop整个系列文章还要涉及到以下话题: 1、HDFS命令行接口的使用; 2、完全分布式Hadoop; 3、Hadoop硬件选型; 4、Hadoop调优; 5、Hadoop调度方法、常用参数、调优; 6、Hadoop集群维护(增减节点等); 7、Hadoop安全:基于Kerberos认证; 8、Hadoop集群监控; 9、Hadoop I/O;Flume、Scribe和sqo
原创 2013-01-09 22:06:06
3364阅读
6点赞
4评论
# Hadoop版本系列介绍 ## 概述 Hadoop是一个开源的分布式计算框架,用于高效地处理大规模数据集。它在大数据处理领域有着广泛的应用,被许多大型公司和组织使用。随着时间的推移,Hadoop的发展也经历了多个版本的更新和改进。本文将介绍Hadoop的版本系列,并提供相应的代码示例。 ## Hadoop版本系列 Hadoop的版本系列可以大致分为以下三个阶段: ### Hadoop
原创 10月前
37阅读
弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hadoop。Market Research的一份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长;到2020年,市场产值会超过10亿美元。 IBM更是非常看好开源大数据工具,派出了3500名研究人员开发Apache Spark,这个工具Hadoop生态系
转载 2023-07-30 13:49:42
54阅读
Hadoop系列文章全部转载自马哥教育      马哥教育: http://mageedu.blog.51cto.com   Hadoop整个系列文章还要涉及到以下话题: 1、HDFS命令行接口的使用; 2、完全分布式Hadoop; 3、Hadoop硬件选型; 4、Hadoop调优; 5、Hadoop调度方
转载 精选 2013-03-12 11:01:14
617阅读
1点赞
1评论
大家好,今天就市面上比较火热的云计算技术中最杰出的开源软件hadoop方面的话题,分享以下宅鸟在工作和学习中对hadoop的认识理解开发运维方面的理解。宅鸟希望给大家分享一些干货。hadoop集群搭建,CDH4 搭建hadoop集群,通过ganglia对整个hadoop集群的监控,hadoop运维过程中需要注意哪些方面
原创 2013-12-20 10:53:21
966阅读
准备1.HADOOP集群环境或者伪集群; 2.KETTLE6.0环境;前言该部署是在windows环境下操作,linux上操作类似。KETTLE HADOOP插件配置1.打开插件所在目录,E:\kettle_integrated\data-integration\plugins\pentaho-big-data-plugin。如图: 2.打开步骤[1]图中的hadoop-configuration
简述:一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问
转载 2011-11-23 12:07:57
249阅读
Hadoop 高可用在Hadoop 2.0以前的版本,NameNode面临单点故障风险(SPOF),也就是说,一旦NameNode节点挂了,整个集群就不可用了,而且需要借助辅助NameNode来手工干预重启集群,这将延长集群的停机时间。而Hadoop 2.0版本支持一个备用节点用于自动恢复NameNode故障,Hadoop 3.0则支持多个备用NameNode节点,这使得整个集群变得更加可靠。什么是 Hadoop 高可用Hadoop 2.0版本支持一个备用节点用于自动恢复NameNode故障,Hado
原创 2021-10-14 16:43:49
264阅读
Hadoop 是使用 Java 编写,允许分布在集群,使用简单的编程模型的计算机大型数据集处理的Apache 的开源框架。 Hadoop 框架应用工程提供跨计算机集群的分布式存储和计算的环境。 Hadoop 是专为从单一服务器到上千台机器扩展,每个机器都可以提供本地计算和存储。Hadoop 可以用单节点模式安装,但是只有多节点集群才能发挥 Hadoop 的优势,我们可以把集群扩展到上千个节点,而且扩展过程中不需要先停掉集群。
原创 2021-10-14 16:43:53
626阅读
简述:一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问
原创 2011-09-26 09:15:08
1675阅读
2点赞
1评论
一、前置条件Hadoop的运行依赖JDK,需要预先安装,安装步骤见:Linux下JDK的安装二、配置免密登录Hadoop组件之间需要基于SSH进行通讯。2.1配置映射配置ip地址和主机名映射:vim/etc/hosts#文件末尾增加192.168.43.202hadoop0012.2生成公私钥执行下面命令行生成公匙和私匙:ssh-keygen-trsa3.3授权进入~/.ssh目录下,查看生成的公
原创 2019-09-16 08:54:49
498阅读
  • 1
  • 2
  • 3
  • 4
  • 5