引言 今天被问到Hive的一些常规优化方法,发现自己居然没有这方面的记录,所以准备简单记录一下自己遇到的一些问题,供接触Hive的朋友参考。 概念 首先说一个老生常谈的但是很重要的问题,Hive不是数仓!!!Hive不是数仓!!!Hive不是数仓!!!重要的事情说三遍。 数仓是一个抽象的理论性的概念,Hive只是实现数仓建设的工具之一。它其实做了一件事情就是把sql解析转换成了MR并在hadoop
转载 2023-11-26 23:29:04
339阅读
数仓特征:面向主题,集成,非易失的,时变。数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,不是所谓的“大型数据库”。 数据库与数据仓库的区别(OLTP 与 OLAP 的区别)  操作型处理,叫联机事务处理 OLTP(On-Line Transaction Processing,),也可以称面向交易的处理系统,它是针对具体业务在数据库联机的日常操作,通
转载 2024-01-17 08:30:07
392阅读
# Doris替代Hive吗? 初学者指南 随着大数据技术的发展,许多企业开始寻求更高效的数据处理工具。Doris(Apache Doris)作为一种新兴的分布式MPP数据库,正在逐渐取代传统的数据处理工具,如Hive。对于刚入行的小白来说,理解Doris如何能够替代Hive是非常重要的。本文将为你提供一个详细的实现步骤,并通过表格、代码示例以及图表来帮助你理解。 ## 实现流程概述 我们
原创 10月前
512阅读
Doris 前身是 Palo ,Palo 是百度自研的基于 MPP 的交互式 SQL 数据仓库,主要用于解决报表和多维分析。它主要集成了 Google Mesa 和 Cloudera Impala 技术。根据最新的 Apache 基金会邮件列表,百度开源项目 Doris 已全票通过投票,正式成为 Apache 基金会的孵化器项目。投票结果是,在包含 8 个约束性投票(binding vo
转载 8月前
84阅读
# 替代MySQL的Doris 在现代数据处理领域,MySQL是一个非常常见的关系型数据库管理系统。然而,随着数据量的增加和复杂性的提高,MySQL的性能和扩展性可能会受到限制。为了解决这些问题,一些新的数据库系统被开发出来,其中一个备受关注的系统就是Doris。 ## 什么是DorisDoris是一个开源的分布式SQL数据仓库系统,最初由百度开发。它旨在为用户提供高性能、高可靠性和可扩
原创 2024-05-12 06:05:39
400阅读
  关于Hadoop已经小记了六篇,《Hadoop实战》也已经翻完7章。仔细想想,这么好的一个框架,不能只是流于应用层面,跑跑数据排序、单表链接等,想得其精髓,还需深入内部。  按照《Hadoop阅读笔记(五)——重返Hadoop目录结构》中介绍的hadoop目录结构,前面已经介绍了MapReduce的内部运行机制,今天准备入手Hadoop RPC,它是hadoop一种通信机制。RPC(Remot
ELK 性能(1) — Logstash 性能及其替代方案介绍当谈及集中日志到 Elasticsearch 时,首先想到的日志传输(log shipper)就是 Logstash。开发者听说过它,但是不太清楚它具体是干什么事情的:当深入这个话题时,我们才明白集中存储日志通常隐含着很多的事情,Logstash 也不是唯一的日志传输工具(log shipper)从数据源获取数据:文件、UNIX soc
转载 2024-09-14 10:04:25
129阅读
目录概述导入方式批量删除Broker LoadRoutine LoadStream load概述Doris现在支持Broker load/routine load/stream load/mini batch load等多种导入方式。 spark load主要用于解决初次迁移,大量数据迁移doris的场景,用于提升数据导入的速度。导入方式所有导入方式都支持 csv 数据格式。其中 Broker l
转载 2023-12-19 20:11:49
206阅读
自从今年鼎石科技公开了自家的DorisDB后(相关视频见B站), Apache Doris 在社区中掀起了一波热潮, 我也跟风来学习一下,相关总结与大家分享。首先简单的说下啥是Doris吧,Doris是一个基于mpp的交互式SQL数据仓库,是一个面向多种数据分析场景的、 兼容MySQL协议的, 高性能的, 分布式关系型列式数据库,用于报告和分析。它最初的名字是Palo,由百度开发。在于2018年捐
Doris–基础–1.3–理论–架构1、名词1.1、FE(Frontend)Doris 的前端节点。开发语言:以 Java 为主功能 接收和返回 客户端请求元数据 管理集群 管理生成 查询计划1.2、BE(Backend)Doris 的后端节点。开发语言:以 C++ 为主功能: 负责 数据存储负责 数据管理执行 查询计划1.3、Tablet是一张表,是实际的物理存储单元 一张表按
转载 2024-05-15 21:53:36
118阅读
文章目录为什么要在本地使用Spark连接Hive?实现1. Scala实现1. 端口设置2. metastore设置3. 主机名设置4. 环境变量设置2. pyspark实现   为什么要在本地使用Spark连接Hive?很多时候,我们在编写好Spark应用程序之后,想要读取Hive表测试一下,但又不想进行打jar包、上传集群、spark-submit这一系列麻烦的操作,此时我们就可
转载 2023-10-11 21:28:24
302阅读
参考Hive安装 王家林DT大数据梦工厂场景Hive存在的意义,怎么安装?如何把本地数据导入到Hive中来?分析简介1、Hive是分布式数据仓库,同时又是查询引擎,所以Spark SQL取代的只是Hive的查询引擎,在企业实际生产环境下Hive+SparkSQL是经典组合。 2、Hive本身是一个简单单机版本的软件,主要负责: a) 把HQL翻译成Mapper(s)-Reducer-Mappe
转载 2024-02-28 14:54:41
189阅读
 但随着互联网业务的发展,本地中心化的架构开始受到以下两个方面的挑战:数据增长越来越快,并且数据格式更加丰富多样,非结构化数据越来越多。传统的分布式存储引擎难以大规模存储和处理文本、音视频等非结构化数据。计算和存储强耦合在本地应用上,缺少弹性。强耦合的模式增加了企业成本,因为需要为计算或者存储的峰值需求准备资源。在大约2015年之后,由于对象存储具有极高的数据持久性,跨地域的容灾以及低成
一、doris是什么Apache Doris是一个现代化的MPP(大规模并行分析)分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris的分布式架构非常简洁,易于运维,并且可以支持10PB以上的超大数据集。Apache Doris可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探索式数据分析等。令数据分析工作更加简单高效!二
转载 2024-05-14 21:34:58
283阅读
# 如何实现 Doris Hive:新手指南 作为一名刚入行的开发者,你的工作可能涉及到多种数据管理和分析工具。在这篇文章中,我们将深入探讨如何将 Doris (一个开源的高性能分布式 SQL 数据库)与 Hive(一个流行的数据仓库软件)结合使用,以便于进行数据分析和处理。文章将包括步骤、示例代码以及必要的解释。 ## 整体流程 在开始之前,我们先看看整个实现过程的步骤和顺序: | 步骤
原创 2024-10-16 05:42:12
37阅读
目录Doris导入方式及链接Doris 目前支持以下4种导入方式:Doris 数据导入- Stream Load 通过 http 协议进行流式数据导入数据导入样例    1. 将本地文件'testData'中的数据导入到数据库'testDb'中'testTbl'的表,使用Label用于去重      &nbs
Doris分析型数据库        Apache Doris 是一个基于 MPP 架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。基于此,Apache Doris 能够较好的满足报表分析、即时
转载 2024-04-11 16:44:58
537阅读
一、hive方式映射数据官方文档:mongo-hadoop官方文档 组件版本要求: Hadoop 1.X版本必须是1.2及以上版本Hadoop 2.X版本必须是2.4及以上版本Hive版本必须是1.1及以上版本依赖的mongodb java dirver 版本必须是3.0.0及以上版本依赖的jar包下载地址,根据需求选择不同版本: mongo-hadoop-coremongo-hado
转载 2023-11-03 20:01:37
295阅读
讲座主要分为四部分内容:为什么需要全局字典什么是全局字典全局字典的技术实现总结与未来规划1. 为什么需要全局字典我们在业务上需要OLAP引擎能够⽀持精确去重的预计算,但这个需求本身是不是合理的呢?目前线上数据分析会有一些与⾦钱相关的计算,比如某一个业务方要计算他们个人的销售业绩、以及一些广告的点击率等,这些能够转化为金钱的计算需求是要求精确去重的,近似去重是⽐较难以容忍的。目前 Doris 的 B
 1.概要Broker load 是一个异步的导入方式,支持的数据源取决于 Broker 进程支持的数据源。用户需要通过 MySQL 协议 创建 Broker load 导入,并通过查看导入命令检查导入结果主要适用于以下场景:外部数据源(如 HDFS等)读取数据,导入到Doris中。数据量在 几十到百GB 级别。主要用于数据迁移,或者定时批量导入Broker load 支持文件类型:PA
转载 2024-08-16 17:13:37
419阅读
  • 1
  • 2
  • 3
  • 4
  • 5