YARN同时支持内存和CPU两种资源的调度,默认只支持内存,如果想进一步调度CPU,需要自己进行一些配置。什么是虚拟cpu目前的CPU被划分成虚拟CPU(CPU virtual Core),这里的虚拟CPU是YARN自己引入的概念,初衷是,考虑到不同节点的CPU性能可能不同,每个CPU具有的计算能力也是不一样的,比如某个物理CPU的计算能力可能是另外一个物理CPU的2倍,这时候,你可以通过为第一个
之前在Hive on Spark跑TPCx-BB测试时,100g的数据量要跑十几个小时,一看CPU和内存的监控,发现 POWER_TEST阶段(依次执行30个查询)CPU只用了百分之十几,也就是没有把整个集群的性能利用起来,导致跑得很慢。因此,如何调整参数,使整个集群发挥最大性能显得尤为重要。Spark作业运行原理spark-base-mech.jpg详细原理见上
Apache Hudi 是一种数据湖平台技术,可提供构建和管理数据湖所需的多种功能。Hudi 提供的一项重要功能是自动管理文件大小,用户不需要手动维护。由于查询引擎不得不多次打开/读取/关闭文件,以计划和执行查询,因此拥有大量小文件将使其难以实现良好的查询性能。但是对于流数据湖用例而言,固有的摄入量将最终具有较小的写入量,如果不进行特殊处理,则可能导致大量小文件。During Write vs A
本文将介绍Apache Hudi的基本概念、设计以及总体基础架构。1.简介Apache Hudi(简称:Hudi)使得您能在hadoop兼容的存储之上存储大量数据,同时它还提供两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。这两种原语分别是:Update/Delete记录:Hudi使用细粒度的文件/记录级别索引来支持Update/Delete记录,同时还提供写操作的事务保证。查询会
1.使用git命令下载hudi0.10的代码steven@wangyuxiangdeMacBook-Pro ~ git clone https://github.com/apache/hudi.gitCloning into 'hudi'...remote: Enumerating objects: 122696, done.remote: Counting objects: 100%
kafka修改保留时间kafka-configs --zookeeper dbos-bigdata-tools001:2181,dbos-bigdata-tools002:2181,dbos-bigdata-tools003:2181 --entity-type topics --entity-name test_sony_boot_play --alter --add-config retent
Kafka是Apache旗下的一款分布式流媒体平台,Kafka是一种高吞吐量、持久性、分布式的发布订阅的消息队列系统。它最初由LinkedIn(领英)公司发布,使用Scala语言编写,与2010年12月份开源,成为Apache的顶级子项目。它主要用于处理消费者规模网站中的所有动作流数据。动作指(网页浏览、搜索和其它用户行动所产生的数据)。消息系统分类我们知道常见的消息系统有Kafka、Rabbi
ErrorMsg: [RequestId]: 61713C8701FFEC3337A1C45C [HostId]: oss-cn-shenzhen-internal.aliyuncs.com [ErrorMessage]: [E1010]HTTP/1.1 400 Bad Request: <?xml version="1.0" encoding="UTF-8"?><Error&g
1.提示有坏块2.使用命令检测坏块hdfs fsck / | egrep -v '^\.+$' | grep -v eplica3.查看坏块4.如果坏块下没有重要的数据,删掉即可[hdfs@dbos-bigdata-work007 ~]$ hdfs dfs -rm -r -skipTrash /group/user/tools/meta/hive-temp-table/test_sony_boot
注:本手册以CM&CDH5.7.6为例1、Hive配置LDAP认证目前单个Hive Server2只能支持一种客户端认证方式,或者是Kerberos认证,或者是LDAP认证,所以要在一个集群内部同时支持两种认证方式,必须配置两个HiveServer 2。注:目前新版本CDH已经可以同时支持两种认证方式,在CDH5.14.4上已验证过。1.1、开启“启用LDAP身份验证”搜索“启用 LDAP
元数据管理是企业数据治理的基础,是数据仓库的提升。作为一名数据人,首要任务就是理解元数据管理。本篇文章将为大家梳理元数据的概念,介绍元数据管理在数据仓库的地位、场景及工具。01 什么是数据仓库的元数据管理?1、什么是元数据?元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data)。抽象的描述:一组用于描述数据的数据组,该数据组的一切信息都描述了该数据的
1. 简介:fcanal [kə'næl],译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费早期阿里巴巴因为杭州和美国双机房部署,存在跨机房同步的业务需求,实现方式主要是基于业务 trigger 获取增量变更。从 2010 年开始,业务逐步尝试数据库志解析获取增量变更进行同步,由此衍生出了大量的数据库增量订阅和消费业务。基于日志增量订阅和消费的业务包括
常用参数和优化方法1. 资源调优spark 的资源分配粒度最小是container,即一个executor带的cpu和内存资源。资源的申请和移除都是通过executor 进程的增加和减少达成1.1 ExecutorExecutor 的参数影响了cpu和内存资源的分配,通过设置executor的参数,可以调节实际处理的并行度。资源最高并行度=executor num * executor core
基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优 Hive默认使用的计算框架是MapReduce,在我们使用Hive的时候通过写SQL语句,Hive会自动将SQL语句转化成MapReduce作业去执行,但是MapReduce的执行速度远差于Spark。通过搭建一个Hive On Spark可以修改Hive底层的计算引擎,将MapReduce替换成Spark,从而大幅度
一、清理空间步骤1.删除日志和回收站hdfs dfs -rm -r -skipTrash /user/*/.Trash/*hdfs dfs -rm -r -skipTrash /var/log/hadoop-yarn/apps/tools/logs/*hdfs dfs -rm -r -skipTrash /group/user/*/meta/hive-exec/*/*2.减少大表副本数a、查找大表
clickhouse的问题:数据库中没有看到这个表,但是创建的时候提示已经存在。09.28 13:38:34.828623 [ 15749 ] {3ebd057e-cdba-413a-a49c-a6c5c43df920} DDLWorker: Query CREATE TABLE IF NOT EXISTS athena.tb_user_local UUID '717eeed9-d8b1-42
flink 1.11.0之前版本的配置################################################################################# This affects logging for both user code and Flinklog4j.rootLogger=INFO, RFA# Uncomment this if you
问题环境软件 版本CDH 6.3.0hive 2.1.1-cdh6.3.0问题原因其实hive的元数据都是存储在数据库里面,目前支持mysql,oracle,Postgres和MS SQL Server。如果我们建表发现乱码,很显然就可以归类到数据库表乱码问题。本例关联的数据库是mysql。 表名如下:需要修改mysql的hive的的字符改成utf-8解决方案:在mysql对应的hiv
在执行批处理作业的时候,报作业为FAILED状态查看执行的过程中发现:oozie的问题。提示hdfs的/user/oozie/share/lib目录不存在,原因是因为没有安装oozie的共享库解决方案:点击oozie角色,操作中点击安装oozie共享库。然后测试一下批处理的脚本:脚本中没有报错,问题得到解决。
原因: 原来使用的是aliyun-sdk-oss-2.8.3.jar,后来调查因为阿里的JindoFS SDK针对oss做了加速缓存,就替换成jindofs-sdk.jar,然后使用hadoop distcp复制数据到oss的时候报错如下: hadoop distcp hdfs://换成自己环境的IP:9000/group/user/tools/meta/hive-temp-table/kstj
dolphinscheduler1.3.4的common.properties的配置 [root@dbos-bigdata-test003 conf]# vim /opt/dolphinscheduler/conf/common.properties 下面的这个配置中8088直接在配置成端口即可 yarn.application.status.address=http://yarnIp1:808
CDH 集群 使用 JindoFS SDK 访问 OSS CDH(Cloudera's Distribution, including Apache Hadoop)是众多Hadoop发行版本中的一种,本文以CDH 5.16.2为例介绍如何配置CDH支持使用JindoFS SDK访问OSS。 步骤 1. 安装 jar 包 下载最新的jar包 jindofs-sdk-x.x.x.jar (下载页面),
写了一个简单的helloworld做测试发现,这个路径并不是我环境中的路径,执行结果如下 解决思路: 先查看env下的ds的配置环境如下: 发现这个配置是原来的配置,不是我机器上的配置,原来默认python的配置是/opt/soft/python/bin/python,这个是原来ds环境自带的,后来我改成我的测试环境的配置是: 重启work节点后问题解决 解决问题如下图:
第一种方案: 对数据从源端进行聚合操作 第二种方案: 对倾斜的key进行过滤 第三种方案: 增加shuffle的并行度 第四种方案: 使用随机的key进行双重的group聚合 第五种方案: 将reduce join替换为map join 第六种方案: 使用随机的key进行两次join操作 第七种方案: 使用随机数以及扩容表进行join操作
1 文档编写目的 本文主要介绍HDFS Federation(联邦)相关知识,为后续文章《如何为CDH集群启用Federation(联邦)》做一个简单的铺垫。Federation即为“联邦”,该特性允许一个HDFS集群中存在多组Namenode同时对外提供服务,分管一部分目录(水平切分),彼此之间相互隔离,但共享底层的Datanode存储资源。 文章目录结构: 1. 文档编写
hadoop实操
当集群中的服务有故障时,CM的界面上可以直接显示告警,你也可以通过CM的API去获取这些信息,本篇文章主要介绍CM的界面告警事件以及如何使用CM提供的API获取集群的告警信息 内容概述 1.文档说明 2.告警介绍 3.事件告警REST API 测试环境 1.CM和CDH版本为CDH 5.16.1 2.操作系统版本为RedHat 7.2 2 告警介绍 在Cloudera Ma
内容概述 1.测试环境描述及创建hive管理员 2.为测试用户授权 3.权限测试 测试环境 1.CM和CDH版本为5.13.1 2.OpenLDAP版本2.4.40 前置条件 1.集群已配置集成OpenLDAP 2.集群已启用Sentry服务且配置正常 3.Hue已集成OpenLDAP 4.测试用户已添加至OpenLDAP服务 2.环境描述 在《6.如何为Hue配置Op
内容概述 1.测试环境描述 2.Impala集成OpenLDAP 3.Impala集成验证 测试环境 1.CentOS6.5 2.OpenLDAP版本2.4.40 3.CM和CDH版本为5.13.1 前置条件 1.OpenLDAP已安装且正常使用 2.集群未启用Kerberos 2.测试环境描述 OpenLDAP服务信息 IP地址 HOSTNAME 描
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号