hive  这里简单说明一下,好对大家配置hive有点帮助。hive是建立在hadoop上的,当然,你如果只搭建hive也没用什么错。说简单一点,hadoop中的mapreduce调用如果面向DBA的时候,那么问题也就显现了,因为不是每个DBA都能明白mapreduce的工作原理,如果为了管理数据而需要学习一门新的技术,从现实生活中来说,公司又需要花钱请更有技术的人来了。  开个玩笑,hadoop
的共享存储和分析系统。HDFS实现存储,而MapReduce实现分析处理。这两部分是Hadoop的核心。
原创 2022-08-21 00:21:36
110阅读
引言Hadoop自从出现到现在被广泛应用,经理了很多个版本的衍化,甚至
原创 2023-04-03 14:40:13
413阅读
hadoop系列之基础系列 浪1234 浪尖聊大数据一、Hadoop基础1、分布式概念        通过爬虫-->爬到网页存储-->查找关键字        一台机器存储是有限的        Google采用多台机器,使用分布式的概念去存储处理        【关于计算】10TB数据,一台机器无法处理,可以用10台机器处理        每台机器可以处理1TB        Map
原创 2021-03-17 11:20:12
185阅读
hadoop基础概念及基本使用相关源码
原创 2021-07-27 10:29:04
204阅读
Hive 不是一个引擎,它的框架使用MapReduce、TeZ 或者Spark 引擎去执行查询,而且它并不运行SQL,而是HiveQL,一种类似SQL 的语言,非常接近SQL。“SQL-in-Hadoop” 也不适用,虽然Hive 和Impala 主要使用Hadoop,但是Spark、Drill、HAWQ 和Presto 还可以和各种其他的数据存储系统配合使用。不像关系型数据库,SQL 引擎独立于
转载 2023-07-13 11:21:14
124阅读
一、基本的Select 操作语法SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE where_condition][GROUP BY col_list [HAVING condition]][   CLUSTER BY col_list  | [DI
——Hadoop是什么是一个由 Apache 基金会所开发的分布式系统基础架构主要解决海量数据的储存和海量数据的分析计算问题广义上说,Hadoop 是一个更广泛的概念,Hadoop生态圈——大数据技术生态体系Sqoop:Sqoop 主要用户在 Hadoop、Hive 与传统的数据库(MySQL)间进行数据的传递,可以将一个关系型数据库中的数据导进到 Hadoop 的 HDFS 中,也可以将 HDF
8个值得关注的SQL-on-Hadoop框架 数据的操作语言是SQL,因此很多工具的开发目标自然就是能够在Hadoop上使用SQL。这些工具有些只是在MapReduce之上做了简单的包装,有些则是在HDFS之上实现了完整的数据仓库,而有些则介于这两者之间。这样的工具有很多,来自于Shoutlet的软件开发工程师Matthew Rathbone最近发表了一篇文章,他列举了一些常用的工具并对各个工具
什么是实时分析(在线查询)系统? 大数据领域里面,实时分析(在线查询)系统是最常见的一种场景,通常用于客户投诉处理,实时数据分析,在线查询等等过。因为是查询应用,通常有以下特点: a. 时延低(秒级别)。 b. 查询条件复杂(多个维度,维度不固定),有简单(带有ID)。 c. 查询范围大(通常查询表记录在几十亿级别)。 d. 返回结果数小(几十条甚至几千条)。 e. 并发数要求高(几百
转载 2023-07-17 21:09:54
41阅读
Hadoop集群、hadoop软件版本特性对比说明、Hadoop生态圈等。
推荐 原创 2013-01-05 11:07:14
5318阅读
9点赞
5评论
1、合并MapReduce集群与HDFS集群 在调度运行一个作业时,将map任务等直接运行于要处理的数据所存储的HDFS的数据节点上,可避免大量的数据传输,实现数据处理的本地性,进而大大提高整个过程的完成效率,这也正是Hadoop集群的部署方式。如下图所示。 在一个小于50个节点的小规模集群中,可以将NameNode与JobTracker合并于同一个节点上运行。而整个集群共有
转载 精选 2013-03-12 10:58:45
841阅读
       hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
转载 2023-09-01 10:06:43
60阅读
SQL on HadoopApache HiveHive是原始的SQL-on-Hadoop解决方案。它是一个开源的Java项目,能够将SQL转换成一系列可以在标准的Hadoop TaskTrackers上运行的MapReduce任务。Hive通过一个metastore(本身就是一个数据库)存储表模式、分区和位置以期提供像MySQL一样的功能。它支持大部分MySQL语法,同时使用相似的 databa
Hadoop学习之路(二)Hadoop发展背景 Hadoop产生的背景 1. HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。 2. 2
原创 2022-06-19 02:08:54
165阅读
Hadoop系列文章全部转载自马哥教育      马哥教育: http://mageedu.blog.51cto.com   Hadoop整个系列文章还要涉及到以下话题: 1、HDFS命令行接口的使用; 2、完全分布式Hadoop; 3、Hadoop硬件选型; 4、Hadoop调优; 5、Hadoop调度方
转载 精选 2013-03-12 11:01:14
617阅读
1点赞
1评论
大家好,今天就市面上比较火热的云计算技术中最杰出的开源软件hadoop方面的话题,分享以下宅鸟在工作和学习中对hadoop的认识理解开发运维方面的理解。宅鸟希望给大家分享一些干货。hadoop集群搭建,CDH4 搭建hadoop集群,通过ganglia对整个hadoop集群的监控,hadoop运维过程中需要注意哪些方面
原创 2013-12-20 10:53:21
966阅读
Hadoop整个系列文章还要涉及到以下话题: 1、HDFS命令行接口的使用; 2、完全分布式Hadoop; 3、Hadoop硬件选型; 4、Hadoop调优; 5、Hadoop调度方法、常用参数、调优; 6、Hadoop集群维护(增减节点等); 7、Hadoop安全:基于Kerberos认证; 8、Hadoop集群监控; 9、Hadoop I/O;Flume、Scribe和sqo
原创 2013-01-09 22:06:06
3364阅读
6点赞
4评论
# Hadoop版本系列介绍 ## 概述 Hadoop是一个开源的分布式计算框架,用于高效地处理大规模数据集。它在大数据处理领域有着广泛的应用,被许多大型公司和组织使用。随着时间的推移,Hadoop的发展也经历了多个版本的更新和改进。本文将介绍Hadoop的版本系列,并提供相应的代码示例。 ## Hadoop版本系列 Hadoop的版本系列可以大致分为以下三个阶段: ### Hadoop
原创 10月前
37阅读
简述:一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问
转载 2011-11-23 12:07:57
249阅读
  • 1
  • 2
  • 3
  • 4
  • 5