在学习接触大数据相关各种技术后,比如:zookeeper分布式应用协调服务组件、Hadoop是分布式计算平台(包含分布式文件系统HDFS和分布式计算和任务处理MapReduce)、Hive分布式数据库、Hbase是分布式kv系统、kafka 分布式消息系统、dubbo分布式服务框架、Storm分布式实时计算模式框架、Spark是分布式计算系统、NoSQL分布式数据库、Redis分布式缓存框架等这
Hive原理与配置Hive概述:1.Hive是一个构建于Hadoop顶层的数据仓库工具,可以查询和管理PB级别的分布式数据。 2.支持大规模数据存储、分析,具有良好的可扩展性 某种程度上可以看作是用户编程接口,本身不存储和处理数据。 3.依赖分布式文件系统HDFS存储数据。 依赖分布式并行计算模型MapReduce处理数据。 4.定义了简单的类似SQL 的查询语言——HiveQL。 5.用户可以通
转载 2023-07-12 12:53:32
91阅读
Hive是为提供简单的数据操作而设计的下一代分布式数据仓库。它提供了简单的类似SQL的语法的HiveQL语言进行数据查询。同时,HiveQL语言能力不足时,它也能允许使用传统的map/reduce进行复杂数据分析。 Hive搭建在Hadoop平台之上的。Hive并不是一个真正的数据库,它的元数据需要存储在其他数据库中(例如mysql)。。Hadoop平台提供了HDFS分布式存储系统和map/re
Hive的安装  Hive的安装相对比较简单,只需修改几个配置就行。Hive自动了元数据库,但使用不方便,因为自带的数据库如果进入hive shell的路径不一致,就看不到对应的表,如从/home进入hive建的表,从/home/hadoop,路径进入hive则看不到刚才建的表,所有建议单独安装数据库作为元数据库,我安装了mysq数据库,作为Hive的元数据库。  1、安装
转载 2023-07-14 16:08:27
0阅读
        Hudi是Uber公司开源的数据湖架构,数据湖架构是近些年出现的一种新的技术架构,主要是解决目前大数据中Hive储存的一些痛点。HUDI的名字来自四个英文单词的缩写(Hadoop Upsert Delete and Incremental),顾名思义HUDI就是为大数据增加了修改、删除的特性。&nbsp
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录前言一、主从,哨兵模式搭建1.主从1.哨兵二、集群搭建1.安装2.修改配置文件redis.conf3.复制4.写个批处理启动5.创建Redis集群(创建时Redis里不要有数据)6.使用7.扩容1.添主2.添从8.缩容总结 前言我们采用Redis多机和集群的方式来保证Redis的高可用性。 单进程+单线程 + 多机 (集群
转载 2023-10-14 17:11:50
128阅读
## K8S分布式集群搭建 ### 概述 Kubernetes(K8S)是一个开源的容器编排引擎,可以实现对容器化应用程序的自动化部署、扩展和管理。在本文中,我们将介绍如何搭建一个分布式集群,以实现高可用性和负载均衡。 ### 流程 | 步骤 | 操作 | | -------- | -------- | | 1 |准备虚拟机或物理机,并安装Kubernetes所需组件| | 2 |初始化Ma
原创 2024-04-25 10:04:32
30阅读
一、下载所需软件和安装包 :https://pan.baidu/s/1BcJR4zUMnidpJ6Bm5mafVQ 提取码:pojc 二、安装虚拟机 步骤如下: 1. 2. 3. 4. 5. 6.选择其中一个序列号输入: VG5HH-D6E04-0889Y-QXZET-QGUC8 CY55A-F6G80-H85HQ-WNN5X-W38W4 AC11H-4HZ05-08EDQ-APQGX
转载 2023-10-03 19:23:23
25阅读
1.        系统环境1.1.   软件版本下表为本系统环境所安装的软件的版本信息:软件类别版本下载地址Hadoop 官网zookeeper 官网hbase 官网hive 官网       1.
转载 2023-07-23 23:11:41
171阅读
一、Hadoop集群安装前的准备基础环境四台Centos6.5 IP地址: 192.168.174.128 192.168.174.129 192.168.174.130 192.168.174.131 四台主机新建hadoop用户并实现ssh免密登陆 iptables关闭和selinux为disabled1.修改主机名和ip地址映射为了后面操作方便,修改主机名分别为hadoop01、hadoop
入门03_搭建分布式集群1.克隆三台机器1.1 关于虚拟机的移除和删除1.2 分别配置三台虚拟机2. 集群配置2.1 跨机器拷贝/同步脚本2.1.1 scp(secure copy)安全拷贝工具2.1.2 rsync远程同步工具2.1.3 xsync集群分发脚本2.2 SSH无秘登陆配置2.2.1 免密登录原理2.2.2 免密登录配置2.2.3 .ssh文件夹下(~/.ssh)的文件功能解释2.
一、集群规划这里搭建的是3个节点的完全分布式,即1个nameNode,2个dataNode,分别如下:hadoopmaster nameNode 192.168.100.11hadoopnode2 dataNode 192.168.100.12hadoopnode3 dataNode 192.168.100.13注意:本文中hadoopmaster可能简称为master,hadoopnode2可能
转载 2023-08-01 19:52:44
146阅读
# 搭建 Spark 伪分布式集群的指南 Apache Spark 是一个快速、通用的计算引擎,广泛用于大规模数据处理。尽管 Spark 的强大功能主要体现在分布式集群上,但在开发和学习过程中,搭建一个伪分布式集群是非常有用的。伪分布式集群的设置允许用户在单台机器上运行集群模式(即多个 Spark 进程同时运行),这样既能体验 Spark 的分布式特性,又避免了配置多台机器的复杂性。 ## 搭
原创 10月前
167阅读
1.spark集群的部署 Hadoop1Hadoop2Hadoop3datanode√√√Namenode√  Secondary √ Master√  Worker√√√Zookeeper√√√2.standalone模式的普通模式搭建第一步:安装JDK1.8第二步:安装Scala2.11.8第三步:安装hadoop(只需要安
转载 2024-02-17 21:36:54
0阅读
文章目录写在前面搭建好Hadoop集群环境安装Spark(Master节点上操作)配置环境变量(Master节点上操作)Spark配置(Master节点上操作)配置Worker节点启动Spark集群(在Master节点上操作)关闭Spark集群(在Master节点上操作) 写在前面这里采用2台机器(节点)作为实例来演示如何搭建Spark集群,其中1台机器作为Master节点,另外一台机器作为Sl
# Hive分布式集群配置指南 在大数据时代,Apache Hive是一个非常流行的数据仓库工具,它允许我们使用SQL查询来分析海量的数据。在这篇文章中,我们将通过具体的步骤来帮助你配置Hive分布式集群。首先,让我们了解整个流程。 ## 配置流程 | 步骤 | 描述 | |------|------| | 1 | 准备Hive的环境 | | 2 | 安装Hadoop | | 3
原创 9月前
130阅读
1.HIVE安装hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。所有首先需要安装分布式环境的hadoop程序(参考:)1.1 Hiv
转载 2023-09-08 15:09:37
33阅读
Linux安装,环境搭建:1.安装VM2.安装CentOS_6.5虚拟机,硬盘空间设置为10G3.设置网络连接:选择VM-编辑-虚拟网络编辑器-更改设置,选择名称VMnet8移除网络,再添加VMnet8网络,选择NAT模式,点击应用4.设置虚拟机网络连接:右击虚拟机右下角网络适配器-设置-网络适配器,先选择桥接模式,再选择NAT模式,对IP网段进行自动获取5.设置虚拟机IP地址,用root用户:c
原创 2017-09-22 13:53:32
576阅读
1点赞
minio
原创 2021-06-03 15:17:15
3011阅读
Zookeeper不仅可以单机提供服务,同时也支持多机组成集群来提供服务,实际上Zookeeper还支持另外一种伪集群的方式,也就是可以在一台物理机上运行多个Zookeeper实例。 Zookeeper通过复制来实现高可用性,只要集合体中半数以上的机器处于可用状态,它就能够保证服务继续。 集群容灾性:3台机器只要有2台可用就可以选出leader并且对外提供服务(2n+1台机器,可以容n台机器挂
ha
原创 2021-07-06 17:30:51
280阅读
  • 1
  • 2
  • 3
  • 4
  • 5