关于Hadoop已经小记了六篇,《Hadoop实战》也已经翻完7章。仔细想想,这么好的一个框架,不能只是流于应用层面,跑跑数据排序、单表链接等,想得其精髓,还需深入内部。 按照《Hadoop阅读笔记(五)——重返Hadoop目录结构》中介绍的hadoop目录结构,前面已经介绍了MapReduce的内部运行机制,今天准备入手Hadoop RPC,它是hadoop一种通信机制。RPC(Remot
但随着互联网业务的发展,本地中心化的架构开始受到以下两个方面的挑战:数据增长越来越快,并且数据格式更加丰富多样,非结构化数据越来越多。传统的分布式存储引擎难以大规模存储和处理文本、音视频等非结构化数据。计算和存储强耦合在本地应用上,缺少弹性。强耦合的模式增加了企业成本,因为需要为计算或者存储的峰值需求准备资源。在大约2015年之后,由于对象存储具有极高的数据持久性,跨地域的容灾以及低成
随着智能终端数量的极速增加,大数据已经成为当今社会的主题词。其高容量、高速度和多类型的特征也反映着时代的发展特点。为了能够挖掘大数据背后的潜在价值,Apache基金会提出了Hadoop平台。该平台的MapReduce框架一步步发展,已经成为大数据处理的核心技术。然而,MapReduce刚刚“称霸”大数据不久,Spark就迅速崛起。其超高的性能和易用性很快吸引了业界的注意,并使得很多公司开始放弃Ma
转载
2024-05-21 14:19:59
188阅读
# 替代MySQL的Doris
在现代数据处理领域,MySQL是一个非常常见的关系型数据库管理系统。然而,随着数据量的增加和复杂性的提高,MySQL的性能和扩展性可能会受到限制。为了解决这些问题,一些新的数据库系统被开发出来,其中一个备受关注的系统就是Doris。
## 什么是Doris?
Doris是一个开源的分布式SQL数据仓库系统,最初由百度开发。它旨在为用户提供高性能、高可靠性和可扩
原创
2024-05-12 06:05:39
400阅读
ELK 性能(1) — Logstash 性能及其替代方案介绍当谈及集中日志到 Elasticsearch 时,首先想到的日志传输(log shipper)就是 Logstash。开发者听说过它,但是不太清楚它具体是干什么事情的:当深入这个话题时,我们才明白集中存储日志通常隐含着很多的事情,Logstash 也不是唯一的日志传输工具(log shipper)从数据源获取数据:文件、UNIX soc
转载
2024-09-14 10:04:25
129阅读
目录概述导入方式批量删除Broker LoadRoutine LoadStream load概述Doris现在支持Broker load/routine load/stream load/mini batch load等多种导入方式。
spark load主要用于解决初次迁移,大量数据迁移doris的场景,用于提升数据导入的速度。导入方式所有导入方式都支持 csv 数据格式。其中 Broker l
转载
2023-12-19 20:11:49
206阅读
引言 今天被问到Hive的一些常规优化方法,发现自己居然没有这方面的记录,所以准备简单记录一下自己遇到的一些问题,供接触Hive的朋友参考。 概念 首先说一个老生常谈的但是很重要的问题,Hive不是数仓!!!Hive不是数仓!!!Hive不是数仓!!!重要的事情说三遍。 数仓是一个抽象的理论性的概念,Hive只是实现数仓建设的工具之一。它其实做了一件事情就是把sql解析转换成了MR并在hadoop
转载
2023-11-26 23:29:04
339阅读
一、关于 Apache Doris 和 DorisDB、StarRocks 的关系Doris 最早是解决百度凤巢统计报表的专用系统,随着百度业务的飞速发展对系统进行了多次迭代,逐渐承担起百度内部业务的统计报表和多维分析需求。2013 年,我们把 Doris 进行了 MPP 框架的升级,并将新系统命名为 Palo ,2017 年我们以百度 Palo 的名字在 GitHub 上进行了开源,2
doris介绍Doris是一个MPP的OLAP系统,以较低的成本提供在大数据集上的高性能分析和报表查询功能。 MPP (Massively Parallel Processing),即大规模并行处理。简单来说,MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到终的结果(与Hadoop相似)。 Apache Doris 是一个基于 MPP 架构的高性
转载
2024-07-26 10:18:19
746阅读
计费系统中需要用到大量的小文件存储,之前一直用的hadoop的hdfs存储。来讨论下hadoop为啥不适用现在的项目:1.计费文件比较小,一般都是几十KB,最大也不过几MB. 用Hadoop,每个文件都会占用128M的chunk,空间浪费。2.研发项目都是基于go的,hadoop的go写的客户端gowfs实在是不好用,本身hadoop也不提供go的api(好像只支持java和c的)3.hado
转载
2023-07-21 14:34:17
59阅读
数仓特征:面向主题,集成,非易失的,时变。数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,不是所谓的“大型数据库”。 数据库与数据仓库的区别(OLTP 与 OLAP 的区别) 操作型处理,叫联机事务处理 OLTP(On-Line Transaction Processing,),也可以称面向交易的处理系统,它是针对具体业务在数据库联机的日常操作,通
转载
2024-01-17 08:30:07
392阅读
# Doris能替代Hive吗? 初学者指南
随着大数据技术的发展,许多企业开始寻求更高效的数据处理工具。Doris(Apache Doris)作为一种新兴的分布式MPP数据库,正在逐渐取代传统的数据处理工具,如Hive。对于刚入行的小白来说,理解Doris如何能够替代Hive是非常重要的。本文将为你提供一个详细的实现步骤,并通过表格、代码示例以及图表来帮助你理解。
## 实现流程概述
我们
# Doris可替代HBase的实现方法
在数据存储和处理的领域,Doris和HBase各自有其独特的优势。随着Doris的发展,许多开发者开始探索Doris是否能够有效替代HBase。本文将为您详细讲解这一过程,帮助您理解如何实现这一替代方案。
## 实现流程
下面是整个步骤的流程,您可以参考这个表格:
```markdown
| 步骤 | 描述
原创
2024-10-09 06:42:30
175阅读
这篇博客将会简单记录Hadoop与Spark对比,HDFS,MapReduce的基本概念,及Spark架构设计,RDD,运行模式。整理起来一起阅读方便我们理解整个大数据处理框架全局和发展。1. Hadoop1.1 背景Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。 HDFS: 分布式文件存储 YARN: 分布式资源管理 Ma
转载
2023-11-21 15:38:13
1291阅读
# Doris 可以替代 MySQL 吗?
随着大数据的发展,传统的关系数据库在处理海量数据时面临了一些挑战。在这方面,Doris(原名Apache Incubator Doris)作为一个新兴的OLAP(在线分析处理)数据库,展现出了其卓越的性能和易用性。本文将探讨Doris是否可以替代MySQL,并通过一些示例代码和ER图来阐明这一点。
## 什么是Doris?
Doris是一个高性能、
原创
2024-09-09 03:38:00
682阅读
Doris简介Doris是一种MPP架构的分析型数据库,主要面向多维分析,数据报表,用户画像分析等场景。自带分析引擎和存储引擎,支持向量化执行引擎,不依赖其他组件,兼容MySQL协议。Apache Doris具备以下几个特点:良好的架构设计,支持高并发低延时的查询服务,支持高吞吐量的交互式分析。多FE均可对外提供服务,并发增加时,线性扩充FE和BE即可支持高并发的查询请求。支持批量数据load和流
目录为什么不用Mysql而用HBase?为什么不用Hive而用HBase?HBase存储逻辑结构HBase存储物理结构HBase架构HBase读写流程StoreFIle Compaction & Region SplitStoreFile Compaction编辑Region SplitHBase底层--LSM树HBase在大规模数据下为什么依旧稳定面对百亿数据,HBase为什么查询速度依
转载
2023-10-31 18:01:16
140阅读
# 替代MySQL的新选择:Doris
MySQL是一个非常流行的关系型数据库管理系统,但是随着数据量的增加和业务需求的变化,有时候我们需要一些更加高效和灵活的数据库解决方案。Doris就是一个很好的选择,它可以替代MySQL,并且具有更强大的功能和性能。
## Doris是什么?
Doris是一个分布式的实时数据仓库,最初由百度开发,后来成为了Apache的顶级项目。它具有高性能、高可靠性
原创
2024-07-04 06:21:10
1240阅读
# Doris能否替代HBase?详解与实现步骤
当我们讨论数据库的选择时,Doris和HBase是两个常用的解决方案。Doris是一个新兴的实时分析型数据库,而HBase则是一个成熟的列式存储数据库。是否可以用Doris替代HBase,关键在于具体的业务需求和场景。下面我们将一步一步探讨这个议题,比较它们的优缺点,并且给出实现替代的步骤。
## 整体流程
以下是将Doris替代HBase的
# 替代Hadoop的选择:Apache Spark
随着大数据技术的不断发展,Hadoop已经不再是唯一的解决方案。尽管Hadoop生态系统在数据存储和处理领域曾经占据主导地位,但由于其复杂性和性能限制,越来越多的替代方案应运而生。其中,Apache Spark凭借其高效的处理能力和易用性,成为众多开发者和数据科学家的首选。
## 为什么选择Apache Spark?
1. **性能提升*