hadoop系列工具

Hadoop连载系列之六：Hadoop数据仓库工具Hive

1 关于HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。Hive提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQ

系统运维

Hadoop

Hive

数据仓库工具

原创

guzhoujiexing

2014-03-18 11:50:17

1347阅读

Hadoop系列

的共享存储和分析系统。HDFS实现存储，而MapReduce实现分析处理。这两部分是Hadoop的核心。

hadoop

mapreduce

javascript

原创

mb6300b232419d1

2022-08-21 00:21:36

110阅读

hadoop系列之基础系列

hadoop系列之基础系列浪1234 浪尖聊大数据一、Hadoop基础1、分布式概念通过爬虫-->爬到网页存储-->查找关键字一台机器存储是有限的 Google采用多台机器，使用分布式的概念去存储处理【关于计算】10TB数据，一台机器无法处理，可以用10台机器处理每台机器可以处理1TB Map

Java

原创

mob604756ed02fe

2021-03-17 11:20:12

185阅读

hadoop系列之基础系列

hadoop基础概念及基本使用相关源码

Hadoop

原创

浪尖聊大数据

2021-07-27 10:29:04

204阅读

hadoop系列-hadoop版本选择

引言Hadoop自从出现到现在被广泛应用，经理了很多个版本的衍化，甚至

hadoop

Hadoop

Apache

原创

MCNU云原生

2023-04-03 14:40:13

413阅读

Hadoop系列之八：Hadoop集群

Hadoop集群、hadoop软件版本特性对比说明、Hadoop生态圈等。

mapreduce

hadoop

hbase

hdfs

大数据

推荐原创

马哥教育

2013-01-05 11:07:14

5318阅读

9点赞

5评论

Hadoop系列之八：Hadoop集群

1、合并MapReduce集群与HDFS集群在调度运行一个作业时，将map任务等直接运行于要处理的数据所存储的HDFS的数据节点上，可避免大量的数据传输，实现数据处理的本地性，进而大大提高整个过程的完成效率，这也正是Hadoop集群的部署方式。如下图所示。在一个小于50个节点的小规模集群中，可以将NameNode与JobTracker合并于同一个节点上运行。而整个集群共有

Hadoop

Hadoop集群

转载精选

马誉

2013-03-12 10:58:45

841阅读

Hadoop工具 hadoop ha

一、Hadoop HA 高可用集群整体架构在 Hadoop 1.0 时代，Hadoop 中的HDFS 集群中面临一个问题，即NameNode 单点问题，如果在集群运行过程中，NameNode出现故障宕机后，那么整个集群将会面临瘫痪。 Hado

Hadoop工具

hadoop

集群

zookeeper

Hadoop

转载

mob6454cc692b0f

2023-08-04 12:41:41

46阅读

Hadoop Hive HBase 系列

Hadoop学习之路（二）Hadoop发展背景 Hadoop产生的背景 1. HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。 2. 2

hadoop

数据类型

java

原创

cn2024

2022-06-19 02:08:54

165阅读

关于Hadoop系列文章

Hadoop整个系列文章还要涉及到以下话题： 1、HDFS命令行接口的使用； 2、完全分布式Hadoop； 3、Hadoop硬件选型； 4、Hadoop调优； 5、Hadoop调度方法、常用参数、调优； 6、Hadoop集群维护(增减节点等)； 7、Hadoop安全：基于Kerberos认证； 8、Hadoop集群监控； 9、Hadoop I/O；Flume、Scribe和sqo

hadoop 大数据 hbase map

原创

马哥教育

2013-01-09 22:06:06

3364阅读

6点赞

4评论

hadoop版本系列

# Hadoop版本系列介绍 ## 概述 Hadoop是一个开源的分布式计算框架，用于高效地处理大规模数据集。它在大数据处理领域有着广泛的应用，被许多大型公司和组织使用。随着时间的推移，Hadoop的发展也经历了多个版本的更新和改进。本文将介绍Hadoop的版本系列，并提供相应的代码示例。 ## Hadoop版本系列 Hadoop的版本系列可以大致分为以下三个阶段： ### Hadoop

apache

hadoop

Hadoop

原创

mob649e81693c66

10月前

37阅读

hadoop rpc 工具类 hadoop开发工具

弗雷斯特调研公司的分析师Mike Gualtieri最近预测，在接下来几年，“100%的大公司”会采用Hadoop。Market Research的一份报告预测，到2011年，Hadoop市场会以58%的年复合增长率(CAGR)高速增长；到2020年，市场产值会超过10亿美元。 IBM更是非常看好开源大数据工具，派出了3500名研究人员开发Apache Spark，这个工具是Hadoop生态系

hadoop rpc 工具类

Hadoop

Windows

apache

转载

mob6454cc6f6c1c

2023-07-30 13:49:42

54阅读

关于Hadoop系列文章

Hadoop系列文章全部转载自马哥教育      马哥教育： http://mageedu.blog.51cto.com   Hadoop整个系列文章还要涉及到以下话题： 1、HDFS命令行接口的使用； 2、完全分布式Hadoop； 3、Hadoop硬件选型； 4、Hadoop调优； 5、Hadoop调度方

hadoop

转载精选

马誉

2013-03-12 11:01:14

617阅读

1点赞

1评论

Hadoop的话题系列

大家好，今天就市面上比较火热的云计算技术中最杰出的开源软件hadoop方面的话题，分享以下宅鸟在工作和学习中对hadoop的认识理解开发运维方面的理解。宅鸟希望给大家分享一些干货。hadoop集群搭建，CDH4 搭建hadoop集群，通过ganglia对整个hadoop集群的监控，hadoop运维过程中需要注意哪些方面

监控

集群

hadoop

ganglia

原创

birdinroom

2013-12-20 10:53:21

966阅读

hadoop包含etl工具吗 hadoop etl工具

准备1.HADOOP集群环境或者伪集群； 2.KETTLE6.0环境；前言该部署是在windows环境下操作，linux上操作类似。KETTLE HADOOP插件配置1.打开插件所在目录，E:\kettle_integrated\data-integration\plugins\pentaho-big-data-plugin。如图： 2.打开步骤[1]图中的hadoop-configuration

hadoop包含etl工具吗

kettle6.0

hadoop

hbase

h5

转载

mob64ca1418e88d

5月前

18阅读

Hadoop系列之一：hadoop部署安装

简述：一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（high throughput）来访问

职场

休闲

hadoop

转载

dwlinux

2011-11-23 12:07:57

249阅读

Hadoop系列之Hadoop 高可用(4)

Hadoop 高可用在Hadoop 2.0以前的版本，NameNode面临单点故障风险（SPOF），也就是说，一旦NameNode节点挂了，整个集群就不可用了，而且需要借助辅助NameNode来手工干预重启集群，这将延长集群的停机时间。而Hadoop 2.0版本支持一个备用节点用于自动恢复NameNode故障，Hadoop 3.0则支持多个备用NameNode节点，这使得整个集群变得更加可靠。什么是 Hadoop 高可用Hadoop 2.0版本支持一个备用节点用于自动恢复NameNode故障，Hado

hadoop

大数据

zookeeper

故障切换

高可用

原创

曾经的男人

2021-10-14 16:43:49

264阅读

Hadoop系列之什么是Hadoop(1)

Hadoop 是使用 Java 编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的Apache 的开源框架。 Hadoop 框架应用工程提供跨计算机集群的分布式存储和计算的环境。 Hadoop 是专为从单一服务器到上千台机器扩展，每个机器都可以提供本地计算和存储。Hadoop 可以用单节点模式安装，但是只有多节点集群才能发挥 Hadoop 的优势，我们可以把集群扩展到上千个节点，而且扩展过程中不需要先停掉集群。

大数据

hadoop

面试

hdfs

数据

原创

曾经的男人

2021-10-14 16:43:53

626阅读

Hadoop系列之一：hadoop部署安装

简述：一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（high throughput）来访问

职场

虚拟化

休闲

云计算

hadoop

原创

elain2012

2011-09-26 09:15:08

1675阅读

2点赞

1评论

Hadoop 系列（四）—— Hadoop 开发环境搭建

一、前置条件Hadoop的运行依赖JDK，需要预先安装，安装步骤见：Linux下JDK的安装二、配置免密登录Hadoop组件之间需要基于SSH进行通讯。2.1配置映射配置ip地址和主机名映射：vim/etc/hosts#文件末尾增加192.168.43.202hadoop0012.2生成公私钥执行下面命令行生成公匙和私匙：ssh-keygen-trsa3.3授权进入~/.ssh目录下，查看生成的公

hadoop

原创

heibaiying

2019-09-16 08:54:49

498阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

hadoop系列工具

Hadoop连载系列之六：Hadoop数据仓库工具Hive

Hadoop系列

hadoop系列之基础系列

hadoop系列之基础系列

hadoop系列-hadoop版本选择

Hadoop系列之八：Hadoop集群

Hadoop系列之八：Hadoop集群

Hadoop工具 hadoop ha

Hadoop Hive HBase 系列

关于Hadoop系列文章

hadoop版本系列

hadoop rpc 工具类 hadoop开发工具

关于Hadoop系列文章

Hadoop的话题系列

hadoop包含etl工具吗 hadoop etl工具

Hadoop系列之一：hadoop部署安装

Hadoop系列之Hadoop 高可用(4)

Hadoop系列之什么是Hadoop(1)

Hadoop系列之一：hadoop部署安装

Hadoop 系列（四）—— Hadoop 开发环境搭建

Hadoop 系列（五）—— Hadoop 集群环境搭建

Hadoop系列之Hadoop工作原理(2)

chd版本Hadoop hadoop版本系列

hadoop建模工具 hadoop模型

Synopsys 系列工具

hadoop备份工具

hadoop 部署工具

hadoop 监控工具

部署 Hadoop 工具

hadoop etl工具