江南独孤客的博客_大数据篇,数据库篇,Linux转载

Hive On Hudi

背景Hudi 源表对应一份 HDFS 数据，通过 Spark，Flink 组件或者 Hudi CLI，可以将 Hudi 表的数据映射为 Hive 外部表，基于该外部表， Hive可以方便的进行实时视图，读优化视图以及增量视图的查询。Hive On Hudi 集成这里以 hive3.1.1、hudi 0.9.0为例，其他版本类似1）将 hudi-hadoop-mr-bundle-0.9.0xxx.

hive

jar

数据

置顶转载 2021-12-16 17:23:26 1359 阅读

唯品会翻牌ClickHouse后，实现百亿级数据自助分析

大家好，我是唯品会实施平台OLAP团队负责人王玉，负责唯品会、Presto、ClickHouse、Kylin、Kudu等OLAP之间的开源修改，组建优化和维护，业务使用范围支持和指引等工作。本次我要分享的主题是唯品会基于ClickHouse的百亿级数据自助分析实践，主要分为以下4个部分：唯品会 OLAP 的演进实验平台基于 Flink和 ClickHouse 如何实现数据自助分析使用 Clic

数据

flink

sql

kylin

物化视图

置顶转载 2021-11-29 18:27:30 800 阅读

一文彻底弄懂Apache Hudi不同表类型

1. 摘要Apache Hudi提供了不同的表类型供根据不同的需求进行选择，提供了两种类型的表•Copy On Write(COW)•Merge On Read(MOR)2. 术语介绍在深入研究 COW 和 MOR 之前，让我们先了解一下 Hudi 中使用的一些术语，以便更好地理解以下部分。2.1 数据文件/基础文件Hudi将数据以列存格式（Parquet/ORC）存放，称为数据文件/基础文件，该

hudi

置顶转载 2021-11-29 12:03:56 1261 阅读

Flink CDC + Hudi + Hive + Presto构建实时数据湖最佳实践

1. 测试过程环境版本说明Flink1.13.1Scala2.11CDH6.2.0Hadoop3.0.0Hive2.1.1Hudi0.10(master)PrestoDB0.256Mysql5.72. 集群服务器基础环境2.1 Maven和JDK环境版本2.2 Hadoop 集群环境版本2.3 HADOOP环境变量配置export HADOOP_HOME=/opt/cloudera/parcels

hive

flink

mysql

数据

sql

置顶转载 2021-11-29 08:56:35 1922 阅读

大数据面试吹牛之前先打草稿

各位面试官好!我叫 xxx，毕业于 xxx，之前在 xxx 公司待了 1 年多，期间⼀直从事的是 IT 行业，刚开始的时候做的是 Java 开发后来转岗到大数据方向做大数据开发; 刚转行到大数据开发时开始比较困难的，大数据并不像 Java 那样⼀套框架基本可以搞定所有的问题，而是不同的业务对于同⼀个问题有多种解决方案。我叫 xxx，毕业至今就职于 xx 公司，职位是数仓开发。参加工作以来，我先后参

数据

kafka

大数据

离线

字段

置顶转载 2021-11-26 09:07:00 869 阅读 2评论

Spark SQL 调优分享

文本介绍了Spark sql的常用参数，以及如何通过这些参数来控制作业的并行度、资源调度、shuffle、执行计划等来提升任务的运行效率，优化存储空间和资源利用率，其中重点关注了资源、数据倾斜、join优化方案。并介绍了Spark 3.0的新特性Adaptive Query Execution。最后通过4个实际的优化案例来进一步介绍常用的优化方法。”01—常用参数和优化方法1. 资源调优spark

spark

数据

sql

hdfs

数据倾斜

置顶转载 2021-10-29 15:49:19 5701 阅读

Hive on Spark调优

之前在Hive on Spark跑TPCx-BB测试时，100g的数据量要跑十几个小时，一看CPU和内存的监控，发现 POWER_TEST阶段（依次执行30个查询）CPU只用了百分之十几，也就是没有把整个集群的性能利用起来，导致跑得很慢。因此，如何调整参数，使整个集群发挥最大性能显得尤为重要。Spark作业运行原理spark-base-mech.jpg详细原理见上

spark

调优

数据

持久化

参数说明

置顶转载 2021-10-29 13:29:47 2107 阅读 20点赞 1收藏

Hudi 原理 | Apache Hudi 如何维护最佳文件大小

Apache Hudi 是一种数据湖平台技术，可提供构建和管理数据湖所需的多种功能。Hudi 提供的一项重要功能是自动管理文件大小，用户不需要手动维护。由于查询引擎不得不多次打开/读取/关闭文件，以计划和执行查询，因此拥有大量小文件将使其难以实现良好的查询性能。但是对于流数据湖用例而言，固有的摄入量将最终具有较小的写入量，如果不进行特殊处理，则可能导致大量小文件。During Write vs A

文件大小

数据

数据文件

apache

hudi

置顶转载 2021-10-28 16:27:42 908 阅读

Apache Hudi 设计与架构最强解读

本文将介绍Apache Hudi的基本概念、设计以及总体基础架构。1.简介Apache Hudi(简称：Hudi)使得您能在hadoop兼容的存储之上存储大量数据，同时它还提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。这两种原语分别是：Update/Delete记录：Hudi使用细粒度的文件/记录级别索引来支持Update/Delete记录，同时还提供写操作的事务保证。查询会

数据

时间轴

日志文件

数据集

文件大小

置顶转载 2021-10-28 16:25:02 566 阅读 15点赞 2收藏

元数据管理在数据仓库的实践应用

元数据管理是企业数据治理的基础，是数据仓库的提升。作为一名数据人，首要任务就是理解元数据管理。本篇文章将为大家梳理元数据的概念，介绍元数据管理在数据仓库的地位、场景及工具。01 什么是数据仓库的元数据管理？1、什么是元数据？元数据（Metadata），又称中介数据、中继数据，为描述数据的数据（data about data）。抽象的描述：一组用于描述数据的数据组，该数据组的一切信息都描述了该数据的

元数据

hive

置顶转载 2021-10-13 08:56:49 494 阅读

Spark SQL 调优分享

常用参数和优化方法1. 资源调优spark 的资源分配粒度最小是container，即一个executor带的cpu和内存资源。资源的申请和移除都是通过executor 进程的增加和减少达成1.1 ExecutorExecutor 的参数影响了cpu和内存资源的分配，通过设置executor的参数，可以调节实际处理的并行度。资源最高并行度=executor num * executor core

spark

调优

置顶转载 2021-10-12 10:05:10 3126 阅读 22点赞 2评论

centos7挂载新磁盘

步骤总结如下一、对磁盘进行分区二、对磁盘进行格式化三、将磁盘挂载到对应目录四、做开机自动挂载磁盘磁盘分区1.使用命令：fdisk -l 查看磁盘（注：正常在Centos7中第一块数据盘标识一般是/dev/sda,第二块数据盘标识一般是/dev/sdb）2.对磁盘进行分区，使用命令：fdisk /dev/sdb 对新增磁盘进行分区（/dev/sdb为新增数据盘标识）3.使用命令：fdisk -l检查

linux

data

置顶转载 2021-10-11 15:34:25 10000+阅读 15点赞 2收藏

挖矿木马自助清理手册

本文为腾讯安全专家撰写的《挖矿木马自助清理手册》，可以为政企客户安全运维人员自助排查清理挖矿木马提供有益参考。一、什么是挖矿木马挖矿木马会占用CPU进行超频运算，从而占用主机大量的CPU资源，严重影响服务器上的其他应用的正常运行。黑客为了得到更多的算力资源，一般都会对全网进行无差别扫描，同时利用SSH爆破和漏洞利用等手段攻击主机。部分挖矿木马还具备蠕虫化的特点，在主机被成功入侵之后，挖矿

linux

置顶转载 2021-09-10 10:15:52 465 阅读

Apache Flink 如何应对Log4j最近爆出的”核弹级“漏洞？！

最近，Apache Log4j 出现了新的”Zero Day“漏洞。目前已在 CVE-2021-44228 下对其进行跟踪。Apache Flink 捆绑了受此漏洞影响的 Log4j 版本。我们建议用户遵循 Apache Log4j 社区的建议。对于 Apache Flink，在 flink-conf.yaml 中设置以下属性：env.java.opts: -Dlog4j2.formatMsgNo

flink

apache

java

转载 2021-12-15 12:50:01 1346 阅读

HDFS Federation（联邦）简介

1 文档编写目的本文主要介绍HDFS Federation（联邦）相关知识，为后续文章《如何为CDH集群启用Federation（联邦）》做一个简单的铺垫。Federation即为“联邦”，该特性允许一个HDFS集群中存在多组Namenode同时对外提供服务，分管一部分目录（水平切分），彼此之间相互隔离，但共享底层的Datanode存储资源。文章目录结构： 1. 文档编写

cdh

hdfs

转载 2021-09-04 08:13:18 647 阅读

如何在CM界面自定义图表

hadoop实操

cdh

转载 2021-09-04 08:09:22 511 阅读

如何通过CM的API 获取集群告警信息

当集群中的服务有故障时，CM的界面上可以直接显示告警，你也可以通过CM的API去获取这些信息，本篇文章主要介绍CM的界面告警事件以及如何使用CM提供的API获取集群的告警信息内容概述 1.文档说明 2.告警介绍 3.事件告警REST API 测试环境 1.CM和CDH版本为CDH 5.16.1 2.操作系统版本为RedHat 7.2 2 告警介绍在Cloudera Ma

cm

cdh

转载 2021-09-04 06:54:01 712 阅读

如何集成OpenLDAP+Sentry

内容概述 1.测试环境描述及创建hive管理员 2.为测试用户授权 3.权限测试测试环境 1.CM和CDH版本为5.13.1 2.OpenLDAP版本2.4.40 前置条件 1.集群已配置集成OpenLDAP 2.集群已启用Sentry服务且配置正常 3.Hue已集成OpenLDAP 4.测试用户已添加至OpenLDAP服务 2.环境描述在《6.如何为Hue配置Op

sentry

转载 2021-09-03 17:50:49 771 阅读

如何为Impala配置OpenLDAP认证

内容概述 1.测试环境描述 2.Impala集成OpenLDAP 3.Impala集成验证测试环境 1.CentOS6.5 2.OpenLDAP版本2.4.40 3.CM和CDH版本为5.13.1 前置条件 1.OpenLDAP已安装且正常使用 2.集群未启用Kerberos 2.测试环境描述 OpenLDAP服务信息 IP地址 HOSTNAME 描

impala

hive

sentry

ldap

转载 2021-09-03 17:42:10 864 阅读

如何为Hive配置OpenLDAP认证

内容概述 1.测试环境描述 2.Hive集成OpenLDAP 3.Hive集成验证测试环境 1.CentOS6.5 2.OpenLDAP版本2.4.40 3.CM和CDH版本为5.13.1 前置条件 1.OpenLDAP已安装且正常使用 2.集群未启用Kerberos 3.集群所有节点SSSD服务运行正常 2.测试环境描述 OpenLDAP服务信息 IP地址

hive

openldap

转载 2021-09-03 17:39:05 889 阅读

如何为Hue配置OpenLDAP认证

内容概述 1.测试环境描述 2.导入hive用户到OpenLDAP 3.Hue集成OpenLDAP 4.Hue集成Hive和Impala 5.Hue集成验证测试环境 1.CentOS6.5 2.OpenLDAP版本2.4.40 3.CM和CDH版本为5.13.1 4.OpenLDAP未启用TLS加密认证前置条件 1.OpenLDAP已安装且正常使用 2.集群未启用Kerbe

ldap

hue

hive

转载 2021-09-03 17:35:07 970 阅读

如何在Cloudera Manager中配置Yarn放置规则

1.文档编写目的 Hadoop集群管理员希望能对集群Yarn作业的资源进行控制。根据不同的业务组或不同的用户，对Yarn的资源池进行划分，达到资源管控、任务管控的效果。通过CM可以进行Yarn动态资源的配置，这里Fayson主要介绍如何在Cloudera Manager中配置Yarn动态资源池的放置规则。在这里Fayson主要用一个场景进行描述，在不给作业指定资源池的情况下，通过CM的放

yarn

转载 2021-09-03 14:00:20 495 阅读

CDH内存调拨过度警告分析

1.问题描述 Hadoop应用程序或者Yarn的作业随机的出现OutOfMemory(OOM)，在Cloudera Manager界面显示如下警告： ip-172-31-24-169.ap-southeast-1.compute.internal: Memory Overcommit Validation Threshold Suppress...Memory on host ip-1

cdh

转载 2021-09-03 13:20:25 895 阅读

Flink on Yarn 日志输出

Flink on Yarn 模式下，业务应用内部配置的 logback.xml/log4j.properties 是无法加载的，Flink 会默认采用安装目录下的 $FLINK_HOME/logback.xml/log4j.properties 作为统一的 logger 定义文件。 Flink 提供的 logback.xml/log4j.properties 只配置了 rootLogger，如果不

flink

转载 2021-08-16 13:40:52 3814 阅读

Java程序基本结构

/** * 可以用来自动创建文档的注释 */public class Hello { public static void main(String[] args) { // 向屏幕输出文本： System.out.print("Hello World"); /* 注释内容注释结束 */ }} //

java

转载 2021-08-12 20:21:11 209 阅读

Hive总结篇及Hive的优化

概述Hive学习也有一段时间了，今天来对Hive进行一个总结，谈谈自己的理解，作者还是个小白，有不对的地方请大家指出相互学习，共同进步。今天来谈一谈什么是Hive，产生背景，优势等一系列问题。什么是Hive老规矩：官网地址Hive wiki.先来谈谈自己的理解：有些人可能会说Hive不就是写SQL的吗，那我们其实可以从另一个角度来理解:Hive就是那么强大啊，只要写SQL就能解决问题，其实这些人

hive

转载 2021-08-03 23:48:33 705 阅读

如何将ORC格式且使用了DATE类型的Hive表转为Parquet表

在CDH中使用Hive时，为了统一数据文件的存储格式，推荐使用Parquet格式的文件存储，这样做也是为了能够同时能够兼容Impala的查询。有些用户在Hive中创建大量的ORC格式的表，并使用了DATE数据类型，这会导致在Impala中无法进行正常的查询，因为Impala不支持DATE类型和ORC格式的文件。本篇文章Fayson主要介绍如何通过脚本将ORC格式且使用了DATE类型的Hive表转为

cdh

转载 2021-08-03 22:42:55 1520 阅读

如何在Hue中调优Impala和Hive查询

Hue中使用Hive和Impala进行查询，在使用完Hue后退出登录，会出现Hive和Impala的暂用的资源未释放。本篇文章Fayson主要针对该问题在Hue中调优Impala和Hive查询，该调优方式适用于CDH5.2及以后版本。内容概述 1.场景描述及测试用户准备 2.Impala资源池和放置规则配置 3.放置规则验证及总结测试环境 1.CM和CDH版本为5.15 2

cdh

转载 2021-08-03 19:46:32 1864 阅读

如何配置impala自动同步HMS元数据

在之前的文章中，Fayson 在《CDH6.3的新功能》中提到Impala 的 Automatic Invalidate/Refresh Metadata 新功能，本文主要介绍如何配置Impala基于事件自动同步HMS元数据。测试环境 1.CM和CDH版本为6.3.3 2.操作系统版本为RedHat 7.2 操作步骤进入CM界面 > Hive > 配置 > 搜索启用

cdh

转载 2021-08-03 19:20:01 758 阅读

impala端口

下表中列出了 Impala 是用的 TCP 端口。在部署 Impala 之前，请确保每个系统上这些端口都是打开的。组件服务端口访问需求备注 Impala Daemon Impala 守护进程前端端口 21000 外部被 impala-shell, Beeswax, Cloudera ODBC 1.2 驱动用于传递命令和接收结果。参见 Configuring Im

port

转载 2021-08-03 19:17:20 723 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客