第1章 R和Hadoop入门第1章讲述了几个与R和Hadoop基本知识相关的主题,包括:R的安装、功能和数据建模Hadoop的安装、特征和组成部分前言已介绍了R和Hadoop。本章将重点关注了解并使用这两种技术。到目前为止,R主要用于统计分析,但由于功能和程序包越来越多,在其他一些领域内,它也很受欢迎,例如机器学习、可视化和数据操作。R不能加载所有数据(大数据)到机器内存。所以,可以选
转载
2023-12-06 19:11:28
58阅读
前言再看本文章之前,请先确保已经看过CentOS下hadoop的分布式搭建和分布式协作服务框架Zookeeper安装部署两篇文章,因为本文章是建立在它们基础之上的。一、HA相关介绍1、为什么出现HA架构Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)(也就是namenode单点宕机导致集群不可用的问题)。NameNode主要在以下两个方面影响HDFS集群:
Name
转载
2023-07-12 13:49:44
61阅读
hadoop的RPC基本概念:1,RPC(Remote Procedure Call Protocol)--远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式程序在内的应用程序更加容易。2,had
转载
2023-07-29 18:20:03
68阅读
六、Hadoop1.x与Hadoop2的区别1、变更介绍Hadoop2相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更:l HDFS的NameNodes可以以集群的方式布署,增强了NameNodes的水平扩展能力和可用性;l MapReduce将JobTracker中的资源管
转载
2023-07-24 10:50:30
32阅读
RPC(Remote Procedure Call Protocol)远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。Hadoop底层的交互都是通过 rpc进行的。例如:datanode和namenode 、tasktracker和jobtracker、secondary namenode和namenode之间的通信都是通过rpc实现的。下面是rpc交
转载
2023-07-20 17:36:44
75阅读
Hadoop作为分布式存储系统,各个节点之间的通信和交互必不可少,所以需要实现一套节点间的通信交互机制。RPC(Remote Procedure CallProtocol,远程过程调用协议)允许本地程序像调用本地方法一样调用远程机器上应用程序提供的服务,所以Hadoop实现了一套自己的RPC框架。Hadoop RPC框架没有使用JDK自带的RMI,而是基于IPC(Inter Process Com
转载
2023-07-04 15:13:20
119阅读
转载
2023-07-07 14:55:33
60阅读
当前已经进入大数据时代,大数据技术和产品百花齐放,在各自的应用场景发挥重要作用,Redis做为高性能的键值数据库与这些技术有着千丝万缕的联系,本文将介绍如何将Redis与Hadoop、ELK等技术进行结合。一、Redis与HadoopHadoop作为大数据时代的分布式计算平台,由于其高可用性、可扩展性、高容错、低成本等特性,已经是大数据系统的标配,但是Hadoop中HDFS的存储机制使得它无法面向
转载
2023-07-13 15:00:19
93阅读
HBase和rhbase的安装与使用,分为3个章节。环境准备及HBase安装rhbase安装rhbase程序用例每一章节,都会分为”文字说明部分”和”代码部分”,保持文字说明与代码的连贯性。注:Hadoop环境及RHadoop的环境,请查看同系列前二篇文章,此文将不再介绍。环境准备及HBase安装文字说明部分:首先环境准备,这里我选择了Linux Ubuntu操作系统12.0...
转载
2021-06-09 17:32:54
343阅读
1.hdfs常用基本命令参数支持文件上传,删除,追加,查看,查找。注意不支持文件修改(在集群中数据存储量很大,如果修改成本很大,所以一般不支持修改)命令: hdfs dfs 查看参数列表(hadoop fs在HDFS中写路径全是绝对路径 常用命令实操1)基本语法[root@bigdata111 ~]# hdfs dfs 具体命令(2) -ls
转载
2023-07-11 21:57:11
417阅读
文章目录Hadoop1.:elephant:Hadoop集群配置2.集群崩溃处理方案3.配置历史服务器4.配置日志聚集功能2.HDFS的Shell相关操作(开发)1.基础命令2.HDFS的API参数优先级3.JavaAPI操作HDFS编程 Hadoop#基本命令
scp基本语法:
发送:scp -r 要拷贝的文件 用户@主机:路径/
拖过来:scp -r 用户@主机名:路径(文件名) 拖哪里
转载
2023-07-24 09:09:54
98阅读
Hadoop RPC分为四部分序列化层:将结构化对象在转为字节流以便通过网络传输或写入持久存储。在RPC框架中,主要用于将用户请求中的参数或者应答转化为字节流以便跨机器传输。函数调用层:定位要调用的函数并执行该函数,Hadoop RPC采用Java反射机制与动态代理实现函数调用。网络传输层:描述Client与Server之间消息传输的方式,Hadoop RPC采用了基于TCP/IP的Socket机
转载
2023-07-12 13:54:26
92阅读
HDFS
—集群迁移 Apache
和
Apache
集群间数据拷贝 1
)
scp
实现两个远程主机之间的文件复制 scp -r hello.txt
root@hadoop103:/user/atguigu/hello.txt
//
推
push
scp -r
root
转载
2024-01-09 22:38:52
177阅读
我们常用的 ETL 工具有Sqoop、Kettle、Nifi:Kettle虽然功能较完善,但当处理大数据量的时候瓶颈问题比较突出;NiFi的功能强大,且支持大数据量操作,但NiFi集群是独立于Hadoop集群的,需要独立的服务器来支撑,强大也就意味着有上手门槛,学习难度大,用人成本高;Sqoop专为关系型数据库和Hadoop之间的ETL而生,支持海量数据,符合项目的需求,且操作简单门槛低。Sqoo
转载
2023-09-04 14:36:38
127阅读
ETL之大数据应用 1.什么是大数据2.大数据的构成 3.大数据的采集与提取4.hadoop与传统数据库的区别 (1).hadoop的5v特征 (1).速度快-实时-离线 (2).多样性 (3).数据量大 (4).真实性 (5).单条数据价值密度低 5.传统数据库特点 (1). 数据结构化 ,数据之间具有联系,面向整个系统。 (2). 数据的共享性高,冗余度低,易扩充 。 (3). 数据独立性高
转载
2023-09-20 12:04:55
95阅读
这里使用hadoop权威指南中max_temperature示例,使用java操作hadoop和c++类似,只是语言和api级别的差异,也需要3个组件:一个继承自Mapper的类,一个继承自Reducer的类,和作业处理的主流程。可以写在一个.java文件里面,也可以写在3个里面,这里写在3个java文件中。java和c++在运行作业的时候比较大的一个差异是,
转载
2023-05-26 03:27:43
72阅读
参考ClickHouse 的基本介绍,什么是 ClickHouse? 参考基于ClickHouse解决活动海量数据问题1 背景1.1 Hadoop生态Google于 2003~2006 年相继发表了三篇论文:“Google File System”、“Google MapReduce”、“Google Bigtable”,将大数据的处理技术带进了大众视野,而 2006 年开源项目 Hadoop 的
转载
2023-12-14 18:50:06
296阅读
大数据集群(Hadoop生态)安装部署——Linux简介前置要求Hadoop集群角色角色和节点分配安装调整虚拟机内存Hadoop集群部署验证Hadoop集群运行情况 简介1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 2)主要解决,海量数据的存储和海量数据的分析计算问题。
Hadoop HDFS 提供分布式海量数据存储能力
Hadoop YARN 提供分布式集群资源管理能
转载
2023-09-11 19:52:31
108阅读
1、请看:,此处只是配置系统的:硬件配置以及操作系统、节点需要安装的工具、安装JDK环境、创建hadoop用户、建立ssh无密码登录本机前五部分,第6部分的hadoop安装在此博文中需要重新配置,所以不需要查看,在此处博文中需要添加一个master1的namenode节点要结合前五部分一起配置。2、下载zookeeper:https://zookeeper.apache.org/releases.
转载
2023-11-22 19:58:04
40阅读
本文实例讲解的是一般的hadoop入门程序“WordCount”,就是首先写一个map程序用来将输入的字符串分割成单个的单词,然后reduce这些单个的单词,相同的单词就对其进行计数,不同的单词分别输出,结果输出每一个单词出现的频数。注意:关于数据的输入输出是通过sys.stdin(系统标准输入)和sys.stdout(系统标准输出)来控制数据的读入与输出。所有的脚本执行之前都需要修改权限,否则没
转载
2023-09-01 08:21:19
45阅读