江南独孤客的博客_大数据篇(8)

yarn（cdh）中的虚拟cpu和内存

YARN同时支持内存和CPU两种资源的调度,默认只支持内存，如果想进一步调度CPU，需要自己进行一些配置。什么是虚拟cpu目前的CPU被划分成虚拟CPU（CPU virtual Core），这里的虚拟CPU是YARN自己引入的概念，初衷是，考虑到不同节点的CPU性能可能不同，每个CPU具有的计算能力也是不一样的，比如某个物理CPU的计算能力可能是另外一个物理CPU的2倍，这时候，你可以通过为第一个

yarn

虚拟内存

虚拟CPU

hive

置顶原创精选 2021-10-29 15:24:18 3133 阅读 1点赞 1收藏

Hive on Spark调优

之前在Hive on Spark跑TPCx-BB测试时，100g的数据量要跑十几个小时，一看CPU和内存的监控，发现 POWER_TEST阶段（依次执行30个查询）CPU只用了百分之十几，也就是没有把整个集群的性能利用起来，导致跑得很慢。因此，如何调整参数，使整个集群发挥最大性能显得尤为重要。Spark作业运行原理spark-base-mech.jpg详细原理见上

spark

调优

数据

持久化

参数说明

置顶转载 2021-10-29 13:29:47 2142 阅读 20点赞 1收藏

Hudi 原理 | Apache Hudi 如何维护最佳文件大小

Apache Hudi 是一种数据湖平台技术，可提供构建和管理数据湖所需的多种功能。Hudi 提供的一项重要功能是自动管理文件大小，用户不需要手动维护。由于查询引擎不得不多次打开/读取/关闭文件，以计划和执行查询，因此拥有大量小文件将使其难以实现良好的查询性能。但是对于流数据湖用例而言，固有的摄入量将最终具有较小的写入量，如果不进行特殊处理，则可能导致大量小文件。During Write vs A

文件大小

数据

数据文件

apache

hudi

置顶转载 2021-10-28 16:27:42 1034 阅读

Apache Hudi 设计与架构最强解读

本文将介绍Apache Hudi的基本概念、设计以及总体基础架构。1.简介Apache Hudi(简称：Hudi)使得您能在hadoop兼容的存储之上存储大量数据，同时它还提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。这两种原语分别是：Update/Delete记录：Hudi使用细粒度的文件/记录级别索引来支持Update/Delete记录，同时还提供写操作的事务保证。查询会

数据

时间轴

日志文件

数据集

文件大小

置顶转载 2021-10-28 16:25:02 587 阅读 15点赞 2收藏

数据湖hudi0.10使用hadoop3.0打包并更改cdh6.3.0的hive包

1.使用git命令下载hudi0.10的代码steven@wangyuxiangdeMacBook-Pro  ~  git clone https://github.com/apache/hudi.gitCloning into 'hudi'...remote: Enumerating objects: 122696, done.remote: Counting objects: 100%

hudi

hadoop

hive

flink

数据湖

置顶原创推荐 2021-10-28 16:07:28 7173 阅读 7点赞 1收藏 9评论

kafka的常规操作命令

kafka修改保留时间kafka-configs --zookeeper dbos-bigdata-tools001:2181,dbos-bigdata-tools002:2181,dbos-bigdata-tools003:2181 --entity-type topics --entity-name test_sony_boot_play --alter --add-config retent

kafka

zookeeper

json

置顶原创 2021-10-27 11:32:24 561 阅读 1收藏

kafka分区扩容和修改三个副本数

Kafka是Apache旗下的一款分布式流媒体平台，Kafka是一种高吞吐量、持久性、分布式的发布订阅的消息队列系统。它最初由LinkedIn(领英)公司发布，使用Scala语言编写，与2010年12月份开源，成为Apache的顶级子项目。它主要用于处理消费者规模网站中的所有动作流数据。动作指(网页浏览、搜索和其它用户行动所产生的数据)。消息系统分类我们知道常见的消息系统有Kafka、Rabbi

cloudera

jar

kafka

zookeeper

java

置顶原创推荐 2021-10-27 11:28:04 8775 阅读 6点赞 3收藏 2评论

cdh集成阿里云oss报错处理

ErrorMsg: [RequestId]: 61713C8701FFEC3337A1C45C [HostId]: oss-cn-shenzhen-internal.aliyuncs.com [ErrorMessage]: [E1010]HTTP/1.1 400 Bad Request: <?xml version="1.0" encoding="UTF-8"?><Error&g

oss

spark

置顶原创 2021-10-22 01:16:02 1648 阅读 16点赞 1收藏 4评论

生产环境hdfs有坏块的处理

1.提示有坏块2.使用命令检测坏块hdfs fsck / | egrep -v '^\.+$' | grep -v eplica3.查看坏块4.如果坏块下没有重要的数据，删掉即可[hdfs@dbos-bigdata-work007 ~]$ hdfs dfs -rm -r -skipTrash /group/user/tools/meta/hive-temp-table/test_sony_boot

hdfs

坏块

置顶原创 2021-10-14 16:36:12 1557 阅读

各组件配置LDAP认证手册

注：本手册以CM&CDH5.7.6为例1、Hive配置LDAP认证目前单个Hive Server2只能支持一种客户端认证方式，或者是Kerberos认证，或者是LDAP认证，所以要在一个集群内部同时支持两种认证方式，必须配置两个HiveServer 2。注：目前新版本CDH已经可以同时支持两种认证方式，在CDH5.14.4上已验证过。1.1、开启“启用LDAP身份验证”搜索“启用 LDAP

hue

hive

impala

ldap

置顶原创推荐 2021-10-13 15:45:10 5878 阅读

元数据管理在数据仓库的实践应用

元数据管理是企业数据治理的基础，是数据仓库的提升。作为一名数据人，首要任务就是理解元数据管理。本篇文章将为大家梳理元数据的概念，介绍元数据管理在数据仓库的地位、场景及工具。01 什么是数据仓库的元数据管理？1、什么是元数据？元数据（Metadata），又称中介数据、中继数据，为描述数据的数据（data about data）。抽象的描述：一组用于描述数据的数据组，该数据组的一切信息都描述了该数据的

元数据

hive

置顶转载 2021-10-13 08:56:49 525 阅读

canal1.1.5 配置kafka

1. 简介：fcanal [kə'næl]，译意为水道/管道/沟渠，主要用途是基于 MySQL 数据库增量日志解析，提供增量数据订阅和消费早期阿里巴巴因为杭州和美国双机房部署，存在跨机房同步的业务需求，实现方式主要是基于业务 trigger 获取增量变更。从 2010 年开始，业务逐步尝试数据库志解析获取增量变更进行同步，由此衍生出了大量的数据库增量订阅和消费业务。基于日志增量订阅和消费的业务包括

canal

置顶原创推荐 2021-10-12 16:51:57 5077 阅读

Spark SQL 调优分享

常用参数和优化方法1. 资源调优spark 的资源分配粒度最小是container，即一个executor带的cpu和内存资源。资源的申请和移除都是通过executor 进程的增加和减少达成1.1 ExecutorExecutor 的参数影响了cpu和内存资源的分配，通过设置executor的参数，可以调节实际处理的并行度。资源最高并行度=executor num * executor core

spark

调优

置顶转载 2021-10-12 10:05:10 3230 阅读 22点赞 2评论

基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优

基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优　　Hive默认使用的计算框架是MapReduce，在我们使用Hive的时候通过写SQL语句，Hive会自动将SQL语句转化成MapReduce作业去执行，但是MapReduce的执行速度远差于Spark。通过搭建一个Hive On Spark可以修改Hive底层的计算引擎，将MapReduce替换成Spark，从而大幅度

cdh

spark

hive

置顶原创精选 2021-10-09 11:09:20 4311 阅读 1点赞 1收藏

hadoop的日常操作

一、清理空间步骤1.删除日志和回收站hdfs dfs -rm -r -skipTrash /user/*/.Trash/*hdfs dfs -rm -r -skipTrash /var/log/hadoop-yarn/apps/tools/logs/*hdfs dfs -rm -r -skipTrash /group/user/*/meta/hive-exec/*/*2.减少大表副本数a、查找大表

hadoop

置顶原创精选 2021-10-08 09:40:33 1346 阅读 7点赞 1收藏 3评论

解决clickhouse问题库中无这个张表创建时已经存在的问题

clickhouse的问题：数据库中没有看到这个表，但是创建的时候提示已经存在。09.28 13:38:34.828623 [ 15749 ] {3ebd057e-cdba-413a-a49c-a6c5c43df920} DDLWorker: Query CREATE TABLE IF NOT EXISTS athena.tb_user_local UUID '717eeed9-d8b1-42

clickhouse

置顶原创精选 2021-09-29 09:39:22 10000+阅读 13点赞 3收藏 6评论

flink滚动日志的配置

flink 1.11.0之前版本的配置################################################################################# This affects logging for both user code and Flinklog4j.rootLogger=INFO, RFA# Uncomment this if you

flink

置顶原创精选 2021-09-28 09:51:14 3496 阅读

hue创建hive表的时候显示注释乱码

问题环境软件版本CDH 6.3.0hive 2.1.1-cdh6.3.0问题原因其实hive的元数据都是存储在数据库里面，目前支持mysql,oracle,Postgres和MS SQL Server。如果我们建表发现乱码，很显然就可以归类到数据库表乱码问题。本例关联的数据库是mysql。表名如下：需要修改mysql的hive的的字符改成utf-8解决方案：在mysql对应的hiv

hive

乱码

置顶原创精选 2021-09-23 16:57:33 3891 阅读

hue无法执行批处理作业解决方案

在执行批处理作业的时候，报作业为FAILED状态查看执行的过程中发现：oozie的问题。提示hdfs的/user/oozie/share/lib目录不存在，原因是因为没有安装oozie的共享库解决方案：点击oozie角色，操作中点击安装oozie共享库。然后测试一下批处理的脚本：脚本中没有报错，问题得到解决。

hue

置顶原创精选 2021-09-22 15:03:57 1373 阅读 1收藏

CDH6.3使用JindoFS SDK无法使用hadoop distcp的问题解决

原因：原来使用的是aliyun-sdk-oss-2.8.3.jar，后来调查因为阿里的JindoFS SDK针对oss做了加速缓存，就替换成jindofs-sdk.jar，然后使用hadoop distcp复制数据到oss的时候报错如下： hadoop distcp hdfs://换成自己环境的IP:9000/group/user/tools/meta/hive-temp-table/kstj

hadoop

置顶原创 2021-09-15 20:29:43 845 阅读

hdfs出现Cannot obtain block length for LocatedBlockt

hdfs

置顶原创精选 2021-09-15 10:54:47 1395 阅读

dolphinscheduler版本差异的配置造成的故障处理

dolphinscheduler1.3.4的common.properties的配置 [root@dbos-bigdata-test003 conf]# vim /opt/dolphinscheduler/conf/common.properties 下面的这个配置中8088直接在配置成端口即可 yarn.application.status.address=http://yarnIp1:808

调度

置顶原创 2021-09-13 22:02:33 674 阅读

CDH 集群使用 JindoFS SDK 访问 OSS

CDH 集群使用 JindoFS SDK 访问 OSS CDH（Cloudera's Distribution, including Apache Hadoop）是众多Hadoop发行版本中的一种，本文以CDH 5.16.2为例介绍如何配置CDH支持使用JindoFS SDK访问OSS。步骤 1. 安装 jar 包下载最新的jar包 jindofs-sdk-x.x.x.jar (下载页面)，

hadoop

oss

置顶原创推荐 2021-09-13 13:38:45 3596 阅读

dolphinscheduler调度中执行python报错的处理过程

写了一个简单的helloworld做测试发现，这个路径并不是我环境中的路径，执行结果如下解决思路：先查看env下的ds的配置环境如下：发现这个配置是原来的配置，不是我机器上的配置，原来默认python的配置是/opt/soft/python/bin/python，这个是原来ds环境自带的，后来我改成我的测试环境的配置是：重启work节点后问题解决解决问题如下图：

调度报错处理

置顶原创推荐 2021-09-09 18:53:46 7773 阅读 1点赞

大数据中常见的数据倾斜解决的办法

第一种方案：对数据从源端进行聚合操作第二种方案：对倾斜的key进行过滤第三种方案：增加shuffle的并行度第四种方案：使用随机的key进行双重的group聚合第五种方案：将reduce join替换为map join 第六种方案：使用随机的key进行两次join操作第七种方案：使用随机数以及扩容表进行join操作

hive

数据倾斜

置顶原创 2021-09-08 10:59:31 949 阅读

HDFS Federation（联邦）简介

1 文档编写目的本文主要介绍HDFS Federation（联邦）相关知识，为后续文章《如何为CDH集群启用Federation（联邦）》做一个简单的铺垫。Federation即为“联邦”，该特性允许一个HDFS集群中存在多组Namenode同时对外提供服务，分管一部分目录（水平切分），彼此之间相互隔离，但共享底层的Datanode存储资源。文章目录结构： 1. 文档编写

cdh

hdfs

转载 2021-09-04 08:13:18 727 阅读

如何在CM界面自定义图表

hadoop实操

cdh

转载 2021-09-04 08:09:22 573 阅读

如何通过CM的API 获取集群告警信息

当集群中的服务有故障时，CM的界面上可以直接显示告警，你也可以通过CM的API去获取这些信息，本篇文章主要介绍CM的界面告警事件以及如何使用CM提供的API获取集群的告警信息内容概述 1.文档说明 2.告警介绍 3.事件告警REST API 测试环境 1.CM和CDH版本为CDH 5.16.1 2.操作系统版本为RedHat 7.2 2 告警介绍在Cloudera Ma

cm

cdh

转载 2021-09-04 06:54:01 779 阅读

如何集成OpenLDAP+Sentry

内容概述 1.测试环境描述及创建hive管理员 2.为测试用户授权 3.权限测试测试环境 1.CM和CDH版本为5.13.1 2.OpenLDAP版本2.4.40 前置条件 1.集群已配置集成OpenLDAP 2.集群已启用Sentry服务且配置正常 3.Hue已集成OpenLDAP 4.测试用户已添加至OpenLDAP服务 2.环境描述在《6.如何为Hue配置Op

sentry

转载 2021-09-03 17:50:49 838 阅读

如何为Impala配置OpenLDAP认证

内容概述 1.测试环境描述 2.Impala集成OpenLDAP 3.Impala集成验证测试环境 1.CentOS6.5 2.OpenLDAP版本2.4.40 3.CM和CDH版本为5.13.1 前置条件 1.OpenLDAP已安装且正常使用 2.集群未启用Kerberos 2.测试环境描述 OpenLDAP服务信息 IP地址 HOSTNAME 描

impala

hive

sentry

ldap

转载 2021-09-03 17:42:10 981 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

yarn（cdh）中的虚拟cpu和内存

Hive on Spark调优

Hudi 原理 | Apache Hudi 如何维护最佳文件大小

Apache Hudi 设计与架构最强解读

数据湖hudi0.10使用hadoop3.0打包并更改cdh6.3.0的hive包

kafka的常规操作命令

kafka分区扩容和修改三个副本数

cdh集成阿里云oss报错处理

生产环境hdfs有坏块的处理

各组件配置LDAP认证手册

元数据管理在数据仓库的实践应用

canal1.1.5 配置kafka

Spark SQL 调优分享

基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优

hadoop的日常操作

解决clickhouse问题库中无这个张表创建时已经存在的问题

flink滚动日志的配置

hue创建hive表的时候显示注释乱码

hue无法执行批处理作业解决方案

CDH6.3使用JindoFS SDK无法使用hadoop distcp的问题解决

hdfs出现Cannot obtain block length for LocatedBlockt

dolphinscheduler版本差异的配置造成的故障处理

CDH 集群使用 JindoFS SDK 访问 OSS

dolphinscheduler调度中执行python报错的处理过程

大数据中常见的数据倾斜解决的办法

HDFS Federation（联邦）简介

如何在CM界面自定义图表

如何通过CM的API 获取集群告警信息

如何集成OpenLDAP+Sentry

如何为Impala配置OpenLDAP认证

欢迎