随着智能终端数量的极速增加,大数据已经成为当今社会的主题词。其高容量、高速度和多类型的特征也反映着时代的发展特点。为了能够挖掘大数据背后的潜在价值,Apache基金会提出了Hadoop平台。该平台的MapReduce框架一步步发展,已经成为大数据处理的核心技术。然而,MapReduce刚刚“称霸”大数据不久,Spark就迅速崛起。其超高的性能和易用性很快吸引了业界的注意,并使得很多公司开始放弃Ma
转载
2024-05-21 14:19:59
188阅读
Doris 前身是 Palo ,Palo 是百度自研的基于 MPP 的交互式 SQL 数据仓库,主要用于解决报表和多维分析。它主要集成了 Google Mesa 和 Cloudera Impala 技术。根据最新的 Apache 基金会邮件列表,百度开源项目 Doris 已全票通过投票,正式成为 Apache 基金会的孵化器项目。投票结果是,在包含 8 个约束性投票(binding vo
# 替代MySQL的Doris
在现代数据处理领域,MySQL是一个非常常见的关系型数据库管理系统。然而,随着数据量的增加和复杂性的提高,MySQL的性能和扩展性可能会受到限制。为了解决这些问题,一些新的数据库系统被开发出来,其中一个备受关注的系统就是Doris。
## 什么是Doris?
Doris是一个开源的分布式SQL数据仓库系统,最初由百度开发。它旨在为用户提供高性能、高可靠性和可扩
原创
2024-05-12 06:05:39
400阅读
关于Hadoop已经小记了六篇,《Hadoop实战》也已经翻完7章。仔细想想,这么好的一个框架,不能只是流于应用层面,跑跑数据排序、单表链接等,想得其精髓,还需深入内部。 按照《Hadoop阅读笔记(五)——重返Hadoop目录结构》中介绍的hadoop目录结构,前面已经介绍了MapReduce的内部运行机制,今天准备入手Hadoop RPC,它是hadoop一种通信机制。RPC(Remot
ELK 性能(1) — Logstash 性能及其替代方案介绍当谈及集中日志到 Elasticsearch 时,首先想到的日志传输(log shipper)就是 Logstash。开发者听说过它,但是不太清楚它具体是干什么事情的:当深入这个话题时,我们才明白集中存储日志通常隐含着很多的事情,Logstash 也不是唯一的日志传输工具(log shipper)从数据源获取数据:文件、UNIX soc
转载
2024-09-14 10:04:25
129阅读
目录概述导入方式批量删除Broker LoadRoutine LoadStream load概述Doris现在支持Broker load/routine load/stream load/mini batch load等多种导入方式。
spark load主要用于解决初次迁移,大量数据迁移doris的场景,用于提升数据导入的速度。导入方式所有导入方式都支持 csv 数据格式。其中 Broker l
转载
2023-12-19 20:11:49
206阅读
引言 今天被问到Hive的一些常规优化方法,发现自己居然没有这方面的记录,所以准备简单记录一下自己遇到的一些问题,供接触Hive的朋友参考。 概念 首先说一个老生常谈的但是很重要的问题,Hive不是数仓!!!Hive不是数仓!!!Hive不是数仓!!!重要的事情说三遍。 数仓是一个抽象的理论性的概念,Hive只是实现数仓建设的工具之一。它其实做了一件事情就是把sql解析转换成了MR并在hadoop
转载
2023-11-26 23:29:04
339阅读
文章目录Hadoop框架HDFS NN、SNN、DN工作原理HDFS概述HDFS架构NameNodeSecondary NameNodeSecondary NameNode的工作流程什么时候checkpiontDataNode上传一个CentOS-7.5-x86_64-DVD-1804.iso大文件来体现分布式管理系统通过ui页面观察文件被block划分HDFS的Trash回收站 Hadoop框
转载
2024-06-15 13:01:47
87阅读
Doris 查询简介Doris Query 接收Doris Query ParseDoris Query AnalyzeDoris Query RewriteDoris Query 单机PlanDoris Query 分布式PlanDoris Query 调度Doris Query 执行总结Doris 查询简介Doris 的查询和大多数数据库一样,需要经过 Parse,Analyze,Optimi
再写 HDFS Federation机制的时候,发现基础不扎实,需要将之前的hadoop再详细记录一下原理(重点只说Hadoop2.0版本): Hadoop2.0版本,引入了Yarn。核心:HDFS+Yarn+MapreduceYarn是资源调度框架。能够细粒度的管理和调度任务。此外,还能够支持其他的计算框架,比如spark等。存储的基础知识以及原理:元数据信息和
转载
2024-09-19 13:14:19
49阅读
HDFS的读写流程 & secondary namenode的数据写入流程1)HDFS的数据写入流程
2)HDFS的数据读取流程
3)SNN的数据写入的流程1)HDFS的数据写入流程(1)客户端发送写入请求给 namenode(2)namenode 接收到请求,然后首先判断当前操作的用户是否具有写入的权限,如果没有则拒绝请求,如果有权限,接着判断要写入的数据目录下是否存在这个文件,如果存在
转载
2024-09-27 14:47:38
61阅读
有Sqoop和DataX之类数据处理为何还要用Apache SeaTunnel,这就要得益于Apache SeaTunnel依赖Flink和Spark天然分布式处理数据的特性,前两者是单机同步数据不适于海量数据同步,以低代码方式用配置文件就可以启动Flink数据处理应用,本篇从基本概念和原理入手,并通过部署SeaTunnel演示了多个基于Flink的Source和S
目录:HDFS简介HDFS架构说明HDFS读文件流程HDFS写文件流程HDFS 可靠性HDFS shellIDEA 开发工具使用Java 操作HDFS全分布式集群搭建一.简介HDFS(Hadoop Distributed File System,分布式文件系统)基于Ggoogel发布的GFS论文设计开发,其除具备其他分布式文件系统相同特性外,还有自己的特性:高容错:认为硬件总是不可靠的,有副本的存
转载
2024-04-29 21:47:24
55阅读
但随着互联网业务的发展,本地中心化的架构开始受到以下两个方面的挑战:数据增长越来越快,并且数据格式更加丰富多样,非结构化数据越来越多。传统的分布式存储引擎难以大规模存储和处理文本、音视频等非结构化数据。计算和存储强耦合在本地应用上,缺少弹性。强耦合的模式增加了企业成本,因为需要为计算或者存储的峰值需求准备资源。在大约2015年之后,由于对象存储具有极高的数据持久性,跨地域的容灾以及低成
在一个现代化的时候,界面不好看的 Eclipse 和操作易用性相比而言更高的 IntelliJ Idea。而在进行 Hadoop 进行编程的时候,最基本的是需要导入相应的 Jar 包,而更为便宜的则是使用 Maven 来进行包的依赖管理,而本文则结合 Gradle 来处理引入最基本的 Hadoop 包,配置运行环境。新建一个 Gradle 项目在新建时要选择 Gradle 项目,并在连接过程中自动
转载
2024-09-20 12:46:34
111阅读
写流程数据导入方式1. Broker Load说明Broker Load是异步方式,支持的数据源取决于Broker进程支持的数据源。适用场景(1)源数据在Broker可以访问的存储系统中。(2)数据量在几十到百GB级别 。原理用户在提交导入任务后,FE会生成相应的导入执行计划(plan),BE会执行导入计划将输入导入Doris中,并根据BE的个数和文件的大小,将Plan分给多个BE执行,每个BE导
Hadoop一直是一个较为热门的词汇。Hadoop最初是Yahoo公司为了处理海量数据而开发的一款开源架构。在许多人眼里,大数据一词与Apache的Hadoop几乎同义。随着越来越多的企业对大数据逐渐熟悉,可以预计2013年管理大数据的各类方案将会成为业界热点。
RainStor CEO John Bantleman曾提醒各IT企业注意一点,虽然Hadoop为现今热门的大数据
转载
2024-04-08 09:47:07
86阅读
近年来,已经有越来越多的企业参与到Hadoop社区的发展中来,它们对HDFS的改造提出了不同的方案,有的是基于社区版HDFS源码进行改造,比如Cloudera的CDH版本和Facebook的AvatarNode,也有的是参照HDFS重写一套分布式文件系统,比如百度的HDFS2和腾讯的XFS,当然社区也推出了新的版本Hadoop0.23。总的来看,Hadoop
转载
2024-02-28 10:12:05
268阅读
Spark Core提供了三种创建RDD的方式,包括:使用程序中的集合创建RDD;使用本地文件创建RDD;使用HDFS文件创建RDD。
1、并行化集合
如果要通过并行化集合来创建RDD,需要针对程序中的集合,调用SparkContext的parallelize()方法。Spark会将集合中的数据拷贝到集群上去,形成一个分布式的数据集合,也就是一个RDD。相当于是,集合中
转载
2024-03-21 19:22:31
76阅读
HDFS的初识 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障
转载
2024-06-12 20:41:18
28阅读