前提本文基于 spark 3.0.1 delta 0.7.0 我们都知道delta.io是一个给数据湖提供可靠性的开源存储层的软件,关于他的用处,可以参考Delta Lake,让你从复杂的Lambda架构中解放出来,上篇文章我们分析了delta是如何自定义自己的sql,这篇文章我们分析一下delta数据是如何基于Catalog plugin API进行DDL DML sql操作的(spark 3.
转载 9月前
26阅读
连接池的作用就是为了提高性能。 连接池的作用:连接池是将已经创建好的连接保存在池中,当有请求来时,直接使用已经创建好的连接对Server端进行访问。这样省略了创建连接和销毁连接的过程。这样性能上得到了提高。 基本原理是这样的: (1)建立连接池对象(服务器启动)。 (2)按照事先指定的参数创建初始数量的连接(即:空闲连接数)。 (3)对于一个访问请求,直接从连接池中得到一个连接。如
转载 1月前
390阅读
概述Cloudera关于Spark调优方面的第二篇博客How-to: Tune Your Apache Spark Jobs (Part 2),主要关注resource tuning(资源使用)、parallelism(并行度)、data representation(数据格式)这三方面。Tuning Resource Allocation如何合理使用现有的资源,尽可能的最大化利用,是这小节的重点
转载 2024-01-11 13:27:12
52阅读
1、前言 Thrift是一个跨语言的服务部署框架,最初由Facebook于2007年开发,2008年进入Apache开源项目。Thrift通过一个中间语言(IDL, 接口定义语言)来定义RPC的接口和数据类型,然后通过一个编译器生成不同语言的代码(目前支持C++,Java, Python, PHP,
转载 2021-08-05 15:35:22
198阅读
Thrift扫盲 最近入职需要用到Thrift框架(准确来说其实是MTThrift),记录一下学习进度。RPC?RPC(Remote Procedure Call,远程过程调用)可以让我们像调用本地一样发起远程调用,为我们屏蔽一些底层细节,例如序列化,编解码,网络传输等。ThriftThrift是一个轻量级、跨语言的远程服务调用框架,最初由Faceboo
转载 2024-09-24 17:22:24
22阅读
Thirft框架介绍1、前言Thrift是一个跨语言的服务部署框架,最初由Faceb
转载 2012-09-21 15:11:00
70阅读
2评论
语言的代码(目前支持C++,Java,
转载 2023-07-03 21:55:12
94阅读
HBase社区直播本期分享专家:明惠(网名:过往记忆)-阿里云数据架构师视频地址:https://yq.aliyun.com/live/590?spm=a2c4e.11155435.0.0.460177969kCLxfPPT地址:https://yq.aliyun.com/download/3033PS:欢迎关注HBase+Spark团队号 https://yq.aliyun.com/t
转载 2023-12-06 22:49:55
56阅读
# Java使用Thrift实现 ## 简介 在本文中,我将向你介绍如何使用Thrift来在Java中实现RPC(Remote Procedure Call)功能。Thrift是一个高效的跨语言通信框架,可以帮助不同语言的应用程序进行通信。 ## 步骤概述 下面是使用Thrift实现RPC的步骤概述: | 步骤 | 描述 | | :--: | :-- | | 1 | 创建Thrift文件 |
原创 2024-04-27 07:01:09
27阅读
# 如何实现其他节点连接 Hive Thrift 在大数据的世界里,Apache Hive 提供了一个 SQL 风格的查询语言,方便我们对 Hadoop 生态中存储的数据进行分析。为实现其他节点连接 Hive Thrift,我们将介绍整个流程及其相应的代码示例,帮助您顺利上手。 ## 流程概述 以下是步骤的概述: | 步骤 | 描述 | |------|------| | 1 | 安
原创 9月前
78阅读
# 使用 Java 和 Node.js 引入 Thrift 的完整指南 ## 引言 Apache Thrift 是一个跨语言的服务开发框架,可用于不同编程语言之间的高效通信。通过 Thrift,开发者能够定义数据结构和服务,并在多种编程语言中实现版。这篇文章将帮助初学者理解如何在 Java 和 Node.js 项目中引入 Thrift。 ## 整体流程 为实现 Java 和 Node.js
原创 2024-09-20 06:06:20
35阅读
我想起了我刚工作的时候,第一次接触RPC协议,当时就很懵,我HTTP协议用的好好的,为什么还要用RPC协议?于是就到网上去搜。不少解释显得非常官方,我相信大家在各种平台上也都看到过,解释了又好像没解释,都在用一个我们不认识的概念去解释另外一个我们不认识的概念,懂的人不需要看,不懂的人看了还是不懂。这种看了,又好像没看的感觉,云里雾里的很难受,我懂。为了避免大家有强烈的审丑疲劳,今天我们来尝试重新换
Spark 1.6.x的新特性Spark-1.6是Spark-2.0之前的最后一个版本。主要是三个大方面的改进:性能提升,新的 Dataset API 和数据科学功能的扩展。这是社区开发非常重要的一个里程碑。1. 性能提升根据 Apache Spark 官方 2015 年 Spark Survey,有 91% 的用户想要提升 Spark 的性能。Parquet 性能自动化内存管理流状态管理速度提升
转载 2023-08-09 16:41:01
254阅读
    之前介绍过Spark 1.6版本的部署,现在最新版本spark为3.0.1并且已经完全兼容hadoop 3.x,同样仍然支持RDD与DataFrame两套API,这篇文章就主要介绍一下基于Hadoop 3.x的Spark 3.0部署,首先还是官网下载安装包,下载地址为:http://spark.apache.org/downloads.html,目前spark稳定版本
转载 2023-08-02 12:35:01
635阅读
“决胜云计算大数据时代”         Spark亚太研究院100期公益大讲堂 【第8期互动问答分享】 Q1:spark线上用什么版本好?        建议从最低使用的Spark 1.0.0版本Spark在1.0.0开始核心API已经稳定;  
转载 2023-07-18 22:50:50
355阅读
1. 前言在使用 OAuth2.0 中 Authorization Server (授权服务器)是一个回避不了的设施,在大多数情况下我们调用的是一些知名的、可靠的、可信任的第三方平台,比如 QQ、微信、微博、github 等。我们的应用只作为 Client 进行注册接入即可。也就是说我们只需要实现 OAuth2.0 客户端的逻辑就可以了,无须关心授权服务器的实现。然而有时候我们依然希
# Python Thrift 反序列化 Thrift 是一个由 Apache 开发的跨语言的 RPC 框架,可以实现不同编程语言间的服务调用。它使用接口定义语言 (IDL) 来定义服务和数据类型。反序列化是将存储或传输的数据转换回原始对象的过程。本文将深入探讨如何在 Python 中使用 Thrift 进行反序列化,并提供代码示例和流程图以帮助理解。 ## Thrift 的基本概念 在 T
原创 2024-10-25 05:40:07
93阅读
# 如何在Apache Spark中查看Spark版本 在数据处理和分析的生态系统中,Apache Spark 是一个被广泛使用的大数据处理框架。在日常开发中,我们有时需要确认我们使用的 Spark 版本。本文将指导你如何查看 Spark 版本,并提供详细的步骤说明。 ## 流程步骤 我们将整个过程分成以下几个步骤: | 步骤号 | 步骤名称 | 描述
原创 10月前
364阅读
# 探索Apache Spark版本演化:从Spark 1.x到Spark 3.x Apache Spark是一个广泛使用的开源大数据处理框架,以其快速、易用和灵活的特性而闻名。自其诞生以来,Spark已经经历了多个版本的迭代,每个版本都带来了新的特性和改进。本文将带您了解Spark版本演化历程,并展示一些关键版本的代码示例。 ## Spark 1.x:奠定基础 Spark 1.x是Ap
原创 2024-07-21 09:26:41
18阅读
# Apache Spark版本介绍及代码示例 ## 1. Apache Spark简介 Apache Spark是一个快速、通用、可扩展的大数据处理框架。它是在Hadoop MapReduce的基础上发展起来的,但相较于MapReduce,Spark提供了更高级的数据操作接口和更强大的性能。 Spark具有以下主要特点: - **快速性能**:Spark使用内存计算,可以将数据存储在内存中
原创 2023-08-13 07:42:07
154阅读
  • 1
  • 2
  • 3
  • 4
  • 5