Hive最初应Facebook每天产生海量新兴社会网络数据进行管理和机器学习需求而产生和发展建立在Hadoop数据仓库基础构架。作为Hadoop一个数据仓库工具,Hive可以将结构化数据文件映射为一张数据库表,并提供简单SQL查询功能。  Hive作为构建在Hadoop之上数据仓库,它提供了一系列工具,可以用来进行数据提取转化加载(ETL),这是一种可以存
转载 2024-08-02 08:18:03
11阅读
hadoop中pig干嘛?在大数据处理世界里,Apache Pig 一个用于处理和分析大型数据集高级平台。它是构建在 Apache Hadoop 之上一个脚本语言,能够让用户以一种更简单方式处理复杂数据操作。Pig 主要通过 Pig Latin 脚本来实现数据流式处理、转化和分析,并且支持用户定义函数(UDF),使得 Hadoop 使用变得更加灵活和高效。 ### 版本对比
原创 6月前
29阅读
说明:步骤为一些视频文件,实践中发现问题已经由个人实践进行补充说明。Linux虚拟机网络配置和系统配置个人网络配置如下:使用NAT模式            Linux虚拟机网络配置1、打开安装好CentOS虚拟机dajiangtai。  2、登录到C
Hadoop MapReduce执行过程详解(带hadoop例子) 1.MapReduce如何执行任务? 2.Mapper任务怎样一个过程? 3.Reduce如何执行任务? 4.键值对如何编号? 5.MR中job参数及设置map和reduce个数 6.实例,如何计算没见最高气温? 1、分析MapReduce执行过程        &nb
CM自动化安装CDH5.14.0详解 目前企业级大数据集群安装有两套方案:Ambari + hdp 或者Cloudera Manger + CDH CDH:一个对Apache Hadoop集成环境封装,可以使用Cloudera Manager进行自动化安装 CDH5.14.0版本说明 CDH最早版本只包含hadoop、hive、hbase等基础组件,CDH5.14.0版本目前已经封装了spar
转载 2023-11-20 07:04:51
46阅读
#Spark入门#这个系列课程,综合于我从2017年3月分到今年7月份为止学习并使用Spark使用心得感悟,暂定于每周更新,以后可能会上传讲课视频和PPT,目前先在博客园把稿子打好。注意:这只是一个草稿,里面关于知识误解还请各大网友监督,我们互相进步。总而言之,网络上知识学会断舍离,学会带着辩证眼光去学习就能进步。  谈到Spark,实际上从16年本科实习时候就已经开始接触,那个时候
转载 2024-06-12 00:36:51
34阅读
什么HadoopHadoop一种用Java编写框架,用于在大型商品硬件集群上运行应用程序,并具有类似于Google File System和MapReduce功能 。 HDFS高度容错分布式文件系统,与Hadoop一样,旨在部署在低成本硬件上。 它提供对应用程序数据高吞吐量访问,并且适用于具有大数据集应用程序。
转载 2023-09-13 23:36:21
39阅读
1 YarnMapReduce工作流程经典MapReduce顶层包括5个独立实体 客户端,提交MapReduce作业YARN资源管理器,协调集群上计算资源分配YARN节点管理器,负责启动和监视集群中containerMapReduce应用程序master,协调运行中作业任务分布式文件系统(一般为HDFS),与其他实体间共享作业文件提交作业步骤,一张图就可以了,照着书上画,加了
转载 2024-06-05 10:36:28
81阅读
 这篇文章将会逐步介绍 Hadoop 集群实现原理以及Hadoop集群拓扑结构。并让大家通过拓扑图形式直观了解 Hadoop 集群如何搭建、运行以及各个节点之间如何相互调用、每个节点如何工作以及各个节点作用是什么。明白这一点将会对学习 Hadoop 有很大帮助。首先,我们开始了解 Hadoop 基础知识,以及 Hadoop 集群工作原理。 &n
转载 2023-09-06 09:35:31
273阅读
HadoopHDFS文件系统概述HadoopHDFS文件系统一种分布式文件系统,hadoop核心组件之一。它设计目标能够在普通硬件上运行,并且能够处理大量数据。HDFS采用了主从(Master/Slave)架构,其中有一个NameNode和多个DataNode。 NameNode作为Master节点:负责管理文件系统命名空间,文件块映射关系和客户端访问。DataNode作
转载 2023-08-10 23:40:50
152阅读
一、概述什么Apache Pig?Apache PigMapReduce一个抽象。它是一个工具/平台,用于分析较大数据集,并将它们表示为数据流。Pig通常与 Hadoop 一起使用;我们可以使用Apache Pig在Hadoop中执行所有的数据处理操作。要编写数据分析程序,Pig提供了一种称为 Pig Latin 高级语言。该语言提供了各种操作符,
转载 2023-11-12 14:17:10
188阅读
Flink仅用于(近)实时处理用例吗Flink一个非常通用系统,用于数据处理和数据驱动应用程序,数据流作为核心构建块。这些数据流可以是实时数据流或存储历史数据流。例如,在Flink视图中,文件存储字节流。因此,Flink支持实时数据处理和应用程序,以及批处理应用程序。使用Flink有哪些先决条件1.您需要Java 8来运行Flink作业/应用程序2.Scala API(可选)取决于S
转载 2024-06-06 19:18:48
30阅读
ShellShell :可以理解为后台运行程序(命令解释器),作用是用来解析你输入命令,搜索环境变量,找到命令文件,运行命令文件。 Shell 一个命令解释器,它在操作系统最外层,负责与用户对话。shell保存在/etc/shells目录中 Shell 既是一种脚本编程语言,也是一个连接内核和用户软件。几种常见Shell: Linux “万国牌”,由多个组织机构开发,不同组织机构为了
转载 2023-12-02 23:21:16
64阅读
文章目录Flink是什么?Flink介绍处理无界和有界数据部署应用程序在任何地方以任何规模运行应用程序利用内存中性能Flink Demo展示利用maven导入依赖利用Scala 进行wordcount利用Java进行wordcount利用Java进行wordcount2Source 展示source1_CollectSource2_FileSource3_KafkaSource4_MySour
转载 2023-07-18 13:15:46
100阅读
前面已经体会到了hadoop魅力,为了更深入了解hadoop,不仅仅是为了写出运行hadoop程序,而是更好了解她,用她来解决我们需要解决问题。 MapReducehadoop核心,所以了解MapReduce运用hadoop首要任务。下面翻译过来MapReduce介绍,作为自己学习一个借鉴。 Hadoop MapReduce 可以轻松写应用程序在集群中并行,可靠,容错地处
转载 2023-11-04 21:36:44
74阅读
文章目录1. MapReduce介绍1.1 MapReduce基本思想1.2 MapReduce设计1.3 MapReduce在yarn集群上执行流程2. MapReduce运行机制详解2.1 Map阶段2.1 Reduce阶段3. MapReduce编程规范Map 阶段 2 个步骤Shuffle 阶段 4 个步骤Reduce 阶段 2 个步骤5. MapReduce中计数器 1. Ma
转载 2023-08-12 20:40:30
46阅读
目录1.Hadoop MapReduce概述2.MapReduce思想核心3.MapReduce特点和局限性4.MapReduce入门案例——WordCount4.1.业务需求4.2.编程思路4.3.编程实现4.3.1.创建Maven项目4.3.2.配置pom.xml文件4.3.3.编写Mapper类和Reducer类4.3.4.编写客户端驱动类4.4.运行MapReduce程序4.4.1.
转载 2024-01-09 21:59:23
33阅读
一、简介maven:   apache下一个开源项目,纯java开发,并且只是用来管理java项目的,Maven跨平台项目管理工具。   1.自动化构建和项目管理工具       Ant→Make→Maven→Gradle   2.Maven概述     ①读音:妹文、麦文     ②Maven作用一:自动化构建     ③Maven作用二:依赖管理[多了重复、少了报错]     ④Ma
转载 2024-01-02 22:45:04
46阅读
云上部署 Hadoop 和 Spark 集群干嘛?在现代大数据处理和分析背景下,Hadoop 和 Spark 提供了强大数据处理能力和灵活计算框架。本文将详细讲解如何在云环境中部署这两个集群,包括环境准备、分步指南、配置详解、验证测试、优化技巧和排错指南。 ## 环境准备 在开始之前,我们需要确保有适合云环境以及所需前置依赖。 ### 前置依赖安装 我们需要安装以下依赖工具
原创 6月前
68阅读
程序干嘛? 程序给人方便。(当然不是指toilet)不管多简单,能节省他人
ll
原创 2022-10-09 13:10:59
138阅读
  • 1
  • 2
  • 3
  • 4
  • 5