## Hadoop实用工具### 1、kafka    大数据平台的分布式消息队列依赖于zookeeper    服务启动命令:nohup bin/kafka-server-start.sh config/server.properties &#### 1.1、组件    producer:消息生产者
转载 2024-05-16 07:20:59
113阅读
Hadoop简介Hadoop是一个开源框架来存储和处理大型数据在分布式环境中。包含两个模块,一个是MapReduce,另一个是Hadoop分布式文件系统(HDFS)。MapReduce:是一种并行编程模型,在大型集群普通硬件可用于处理大型结构化,半结构化和非结构化数据。HDFS:Hadoop分布式文件系统是Hadoop框架的一部分,用于存储和处理数据集。提供了一个容错文件系统在普通硬件上运行。Ha
一、Sqoop介绍:数据迁移工具Sqoop用于在Hadoop(HDFS)和关系型数据库之间,进行数据的迁移。 Sqoop的导入:将关系型数据库中的数据导入到HDFS中 Sqoop的导出:将HDFS的数据导出到关系型数据中 本质:将导入或导出命令翻译成 MapReduce 程序来实现 在翻译出的 MapReduce 中主要是对 InputFormat 和 OutputFormat 进行定制二、Sqo
转载 2023-12-21 13:25:18
169阅读
最近看了某大神的博客,非常详细地描述了关于Hadoop 1.xHadoop 2.x的区别和改进,博客原文链接如下:看了博客之后,自己简单总结概述了一下两者之间的区别,Hadoop 1.x相比,Hadoop 2.x的改进主要在以下两个方面:(1)HDFS的改进HDFS的NameNode可以以集群的方式布署,增强了NameNodes的水平扩展能力和高可用性,分别体现在HDFS Federatio
Hive介绍Hive环境搭建Hive实现wordcount Hive介绍产生背景MapReduce编程的不便性 HDFS上的文件缺少Schema,无法使用SQL方式查询What?Facebook于2007年开源,最初用于解决海量结构化的日志数据统计问题 是一个构建在Hadoop之上的数据仓库 定义了一种类SQL查询语言:HQL 通常用于进行离线数据处理 底层支持多种不同的执行引擎(MR
转载 2024-09-09 17:26:23
98阅读
本系列主要总结下Zookeeper的基础使用,笔者准备写四篇文章:博文内容资源链接Linux下搭建Zookeeper运行环境Zookeeper入门,一篇就够啦Zookeeper客户端ZkClient、Curator的使用,史上最详细的教程来啦~Zookeeper使用总结(进阶篇) 文章目录前言1 初识Zookeeper2 Zookeeper运行环境3 zoo.cfg配置文件详解4 Zookeepe
转载 2024-10-10 12:01:45
37阅读
===文章采用Google Translator=====Google翻译:建议先看原文。在这个例子中,我们将探讨Apache Zookeeper,从简介开始,然后是设置Zookeeper并使其运行的步骤。1.介绍Apache Zookeeper是分布式系统的构建块。当设计分布式系统时,总是需要开发和部署可以通过集群协调的东西。这是Zookeeper进入图片。它是一个由Apache维护的开源项目,
StormSpark、Hadoop三种框架对比StormSpark、Hadoop这三种框架,各有各的优点,每个框架都有自己的最佳应用场景。所以,在不同的应用场景下,应该选择不同的框架。1.Storm是最佳的流式计算框架,Storm由Java和Clojure写成,Storm的优点是全内存计算,所以它的定位是分布式实时计算系统,按照Storm作者的说法,Storm对于实时计算的意义类似于
文章目录1.简介2.Sqoop环境配置3.Sqoop常用参数4.测试4.1.导入表数据到HDFS4.2.导出表数据到mysql中5.DataX迁移工具 1.简介    Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MyS
转载 2023-08-21 17:09:56
132阅读
1 搭建环境部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序,用户对shiyanlou必须赋予rwx权限(一般做法是root用户在根目录下创建/app目录,并修改该目录拥有者为shiyanlou(chown –R shiyanlou:shiyanl
转载 2024-08-07 18:10:22
107阅读
一、前言什么是hive?Hive 数据仓库工具,可以把hadoop下原始结构化数据变成hive中表看成sql->Map-Reduce的映射器,提供shell,jdbc/odbc接口他为数据仓库的管理提供了多功能:数据ETL工具,数据存储管理和大型数据集查询和分析能力二、Hive 数据存储hive 的数据存储建立在hadoop 的hdfs 基础上,hive 的每个对应的分区对应 的数据库中的相
转载 2024-05-16 21:40:58
64阅读
目录一、什么是Kafka二、配置Kafka2.1、所需资源2.2、安装配置hadoop(单机)2.3、安装配置zookeeper(单机)2.4、安装配置kafka(单机)2.4.1 第一步 Kafka下载解压2.4.2 第二步 配置环境变量2.4.3 第三步 修改Kafka配置文件2.4.4 第四步 启动Kafka服务2.5 使用kafka发送和接收消息2.5.1 启动生产者(消息发送方)2.
一、背景写这边篇文章的目的,是记录我在集成kafka客户端遇到的一些问题,文章会记录整个接入的过程,其中会遇到几个坑,如果需要最终版本,直接看最后一节就行了,感觉Spring-Kafka的文档太少了,如果采用SpringBoot集成的方式接入,一不小可能就会踩坑二、操作步骤1 添加依赖<dependency> <groupId>org.springf
1 准备三台服务器配置hosts,并可以互相ping通,并安装jdk。vim /etc/hosts 192.168.67.8 kafka08 192.168.67.9 kafka09 192.168.67.10 kafka10 ping kafka08 ping kafka09 ping kafka10 yum install java-1.8.0-openjdk.x86_64 -y java
转载 10月前
18阅读
互联网大数据框架介绍(二)Hive,HBase继续上一节的hadoop,HDFS,yarn,MapReduce。这节继续想下讲,将数据仓库Hive,和大数据的数据库HBaseHive首先,我们要明确什么是Hive,Hive是构建于Hadoop的HDFS和MapReduce上,的用于管理和查询结构化/非结构化数据的数据仓库。Hive分别有三个部分组成: 1)使用HQL作为查询接口 2)使用HDF
转载 2023-09-18 19:08:59
69阅读
 本文将介绍“数据计算”环节中常用的三种分布式计算组件——Hadoop、Storm以及Spark。    当前的高性能PC机、中型机等机器在处理海量数据时,其计算能力、内存容量等指标都远远无法达到要求。在大数据时代,工程师采用廉价的PC机组成分布式集群,以集群协作的方式完成海量数据的处理,从而解决单台机器在计算存储上的瓶颈。Hadoop、Storm以及Spark是常用的分布式计算组件,其中Had
sqoop数据迁移1、简介   sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。   导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;   导出数据:从Hadoop的文件系统中导出数据到关系数据库2、工作机制   将导入或导出命令翻译成mapreduce程序来实现   在翻译出的mapreduce中主要是
转载 2023-07-12 15:26:44
250阅读
一、简介  来自官网介绍:  翻译:kafka,是一个分布式的流处理平台。LinkedIn公司开发。scala语言编写。    1、支持流处理的发布订阅模式,类似一个消息队列系统;  2、多备份存储,副本冗余机制,具备高容错性;  3、可以处理流。二、使用  1、需要zk支持;  2、集群模式启动很简单,类似zk,只要在server.properties中指定broker.id
转载 2023-07-13 13:30:26
56阅读
Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持Kafka集成。InfoQ一直在紧密关注Kafka的应用以及发展,“Kafka剖析”专栏将会从架构设计、实现、应用场景、性能等方面深度解析Kafka。 本文在上篇文章基础上,更加深入讲
转载 2024-07-18 08:46:31
66阅读
KafkaHadoop是两个在大数据领域中常用的工具,它们分别用于实时流数据处理和批处理。在实际应用中,往往需要将两者结合起来,以实现更全面的数据处理和分析。下面我将为你介绍KafkaHadoop的区别,并指导你如何将它们结合起来使用。 ### KafkaHadoop的区别 Kafka是一个分布式流数据平台,用于在多个系统或应用之间可靠地传输数据,支持高吞吐量的实时数据处理。而Hadoop
原创 2024-05-28 10:43:20
112阅读
  • 1
  • 2
  • 3
  • 4
  • 5