一、准备工作1.1 前言        这是博主在升级过程中遇到的问题记录,大家不一定遇到过,如果不是 CDH 平台的话,单是 hive 服务升级应该是不会有这些问题的,且升级前博主也参考过几篇相关 CDH 升级 hive 服务的博文,前面的升级步骤基本一致,但是升级过程只有我遇到了这些问题吗?显然不是的,但是其他博文
转载 2024-03-25 13:55:49
437阅读
HDFS常用命令类似于Linux的ls命令,显示文件列表 hdfs dfs   -ls /在整个目录下递归执行ls, 与UNIX中的ls-R类似 hdfs dfs   -ls -R /创建目录。使用-p参数可以递归创建目录 hdfs dfs -mkdir dir2 hdfs dfs -mkdir -p dir3/testput 将单个的源文件src或者多个源文件srcs从本地文
转载 2024-02-19 17:56:09
48阅读
一、背景  2019 年,Cloudera 与 Hortonworks 合并后,彻底完成了转型。Cloudera 果断宣布,对 CDH 和 HDP 两条产品线将仅支持到 2022 年。对于两个产品高度重合的部分会做删减和融合,结果就是推出新的数据平台 CDP (Cloudera Data Platform)。2022 年后,原 CDH 和 HDP 用户会被转移到 CDP 上 。
转载 2023-06-14 19:15:19
278阅读
一、HAWQ高可用简介        HAWQ作为一个传统数仓在Hadoop上的替代品,其高可用性至关重要。通常硬件容错、HAWQ HA、HDFS HA是保持系统高可用时需要考虑并实施的三个层次。另外实时监控和定期维护,也是保证集群所有组件健康的必不可少的工作。         总的来说,HAWQ容错高可用的实现方式包
转载 2024-06-21 22:41:48
117阅读
官网参考:https://www.cloudera.com/documentation/enterprise/upgrade/topics/ug_overview.html注意:下文中的ip需要改成自己的ip1、升级注意点升级包括两个主要步骤,升级Cloudera Manager和升级CDH,在升级之前需要注意:CDH 5和Cloudera Manager 5要求和支持的版本 注意JDK版本和集群
转载 2023-10-13 19:38:26
211阅读
手动故障切换到备用NameNode使用Cloudera Manager手动故障转移到备用NameNode如果您正在运行启用了HA的HDFS服务,则可以手动使活动的NameNode故障切换到备用NameNode。这对计划中的停机时间很有用 - 用于主要主机的硬件更改,配置更改或软件升级。 1.转到HDFS服务。 2.单击实例选项卡。 3.点击联合和高可用性。 4.找到要在NameNode上进
大家好,今天分享一款OLAP神器的安装方法。学习靠努力和坚持。能动手的地方不要动嘴(实操胜于一切)。 01—Apache Kylin是什么 Apache Kylin是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。Kylin也是国内首个贡
1.MapReduce shuffle处理程序和IFile阅读器使用本机Linux调用,在安装了Hadoop本机库的Linux系统上。 2.改善随机处理程序 1.您可以通过启用shuffle readahead来改进MapReduce shuffle处理程序的性能。 这会导致TaskTracker或节点管理器在通过套接字将其发送到reducer之前预读取
转载 2024-07-19 18:34:19
50阅读
转载 2024-01-08 16:58:28
256阅读
升级需求 1.为支持spark kerberos安全机制 2.为满足impala trunc函数 3.为解决impala import时同时query导致impala hang问题 升级步骤 参考http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics
转载 2023-09-05 12:47:26
281阅读
安装环境如下:操作系统:CentOs 6.5Hadoop 版本:cdh-5.3.0 Spark 版本:cdh5-1.2.0_5.3.0 1. 安装首先查看 Spark 相关的包有哪些: $ yum list |grep spark spark-core.noarch 1.2.0+cdh5.3.0+364-1.cdh5.3.0.p0.36.el6 @cdh spar
转载 2023-08-08 12:27:57
177阅读
windows配置单机spark环境背景介绍:把python代码修改为pyspark,并在CDH集群上运行。 整个工作的流程大致如下:windows单机python代码,包括探索性数据分析、特征提取以及模型训练。在windows上配置PySpark环境,并将python代码改为pyspark配置CDH集群的python环境,提交测试在Spark集群上训练模型,以及模型工程化做预测本文主要介绍第二部
转载 2023-06-30 21:50:13
179阅读
Hadoop的高可用安装本文主要讲hadoop的高可用安装过程以及一些本人在安装过程中遇到的错误和解决方法。1.HA安装方案2.分发jdk到node04,05,06scp jdk-7u67-linux-x64.rpm node04:`pwd` scp jdk-7u67-linux-x64.rpm node05:`pwd` scp jdk-7u67-linux-x64.rpm node06:`pwd
前期准备 配置hosts 192.168.245.105 scm-node1 192.168.245.106 scm-node2 192.168.245.107 scm-node3设置hostname 在192.168.245.105上执行 sudo hostnamectl --static --transient set-hostname scm-node1 在192.168.245.106
转载 2024-05-11 22:51:57
54阅读
• 利用现有的硬件资源,避免通过添加新硬件来进行迁移的的昂贵资源、时间和成本。 • 使用CDP私有云基础版中提供的新的流传输功能,对他们的体系结构进行现代化升级,以实时获取数据,以便快速将数据提供给用户。此外,客户希望使用CDP私有云基础版7.1.2附带的新Hive功能。• 客户还希望利用CDP PvC Base中的新功能,例如用于动态策略的Apache Ranger,用于血缘的Apac
集群部署情况HOSTJNNNSNNDNZKFCZKnode01##--#-node02######node03#--#-#node04---#-#基础操作环境centos7.5 jdk1.8 zookeeper 3.7.1 hadoop 2.6.5基础设施安装jdk基本操作,不会的自行百度。关闭防火墙systemctl stop firewalld systemctl disable firew
转载 2024-04-19 17:41:04
51阅读
详解HDFS Short Circuit Local ReadsHadoop的一大基本原则是移动计算的开销要比移动数据的开销小。因此,Hadoop通常是尽量移动计算到拥有数据的节点上。这就使得Hadoop中读取数据的客户端DFSClient和提供数据的Datanode经常是在一个节点上,也就造成了很多“Local Reads”。最初设计的时候,这种Local Reads和Remote Reads(
转载 2024-04-05 21:22:15
31阅读
HDFS高可用对于保证NameNode元数据的一致性和编辑日志的安全性,采用Zookeeper来存储编辑日志文件。两个NameNode一个是Active状态的,一个是Standby状态的,一个时间点只能有一个Active状态的。NameNode提供服务,两个NameNode上存储的元数据是实时同步的,当Active的NameNode出现问题时,通过Zookeeper实时切换到Standby的Nam
ls格式:hdfs dfs -ls  URI作用:类似于linux的ls命令,显示文件列表lsr格式:hdfs dfs -lsr URI作用:在整个目录下递归执行lsmkdir格式:hdfs dfs  【-p】 -mkdir <path>作用:以《path》中的URI作为参数,创建目录,使用-p参数可以递归创建目录put格式: hdfs dfs  -put
转载 2024-02-20 18:39:15
27阅读
1.概述在CDH的默认安装包中,是不包含Kafka,Kudu和Spark2的,需要单独下载特定的Parcel包才能安装相应服务。本文档主要描述在离线环境下,在CentOS6.5操作系统上基于CDH5.12.1集群,使用Cloudera Manager通过Parcel包方式安装Kudu、Spark2和Kafka的过程。内容概括Kudu安装Spark2安装Kafka安装服务验证测试环境操作系统版本:
  • 1
  • 2
  • 3
  • 4
  • 5