Spark核心概念——RDD RDD(抽象数据集的统称Spark是对RDD的其中一种实现):Resilient Distributed Datasets,弹性分布式数据集 1.分布在集群中的只读对象集合(由多个Partition构成) 2.可以存储在磁盘或内存中(多种存储级别) 3.通过并行“转换”操作构造 4.失效后自动重构RDD基本操作(operator) 1.Transformat
原创 2022-11-28 15:42:03
95阅读
本文主要内容来自于《Hadoop权威指南》英文版中的Spark章节,能够说是个人的翻译版本号,涵盖了基本的Spark概念。假设想获得更好地阅读体验,能够訪问这里. 安装Spark 首先从spark官网下载稳定的二进制分发版本号,注意与你安装的Hadoop版本号相匹配: wget http://arc
转载 2018-04-11 12:07:00
292阅读
2评论
1. Spark是什么?Spark是一个并行数据处理框架。它允许开发快速、统一的大数据应用程序,将批处理、流处理和交互分析结合起来。 2. RDD是什么?Spark的主要核心抽象称为弹性分布式数据集。RDD是满足这些属性的分区数据的集合。不可变、分布式、延迟计算、可捕获是常见的RDD属性。  3. Immutable 是什么?一旦创建并赋值,就不可能更改,这个属性称为
转载 2024-03-03 22:30:13
22阅读
Spark 核心概念简介
原创 2015-12-05 14:41:29
555阅读
1.   Spark概述1.1.  什么是Spark(官网:http://spark.apache.org) Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目
转载 2023-08-10 17:06:01
87阅读
目录一、简介历史二、特点速度快易用通用兼容三、Spark组件Spark-Core 和 弹性分布式数据集(RDDs)Spark SQLSpark StreamingMLlibGraphX四、Spark和Hadoop的异同五、Spark开发语言对比 一、简介Spark 是一个快速(基于内存), 通用, 可扩展的集群计算引擎并且 Spark 目前已经成为 Apache 最活跃的开源项目, 有超过 10
Spark笔记整理(二):RDD与spark核心概念名词
原创 2018-04-25 16:58:35
10000+阅读
1、为什么是Docker?Docker 是一个开源的应用容器引擎,基于 Go(https://www.runoob.com/go/go-tutorial.html)语言 并遵从 Apache2.0 协议开源,Docker 是世界领先的软件容器平台。开发人员利用 Docker 可以消除协作编码时“在我的机器上可正常工作(测试环境没问题,一到生产环境,就一大堆报错)”的问题。运维人员利用 Docker
原创 2021-03-09 15:02:21
481阅读
在本文中,我们将介绍基本的Kubernetes概念。Kubernetes的术语很多,可能会令人生畏。我将帮助您建立一个思维模型,以加快对技术的了解。首先,我们将研究6层抽象及其组成的各个部分。然后,我们将看看其他7个关键的 K8s API对象。一、K8s 的 6 层抽象1)Deployment2)ReplicaSet3)Pod4)Node Cluster5)Node Processes6)Dock
原创 2021-04-21 09:00:07
305阅读
1). 项目构建过程中的各个环节 2). 配置环境变量 以上都分为两步: 3). 核心概念 4). 约定 > 配置 > 编码 5). maven 命令
转载 2017-07-16 20:19:00
136阅读
2评论
​本文不是Git使用教学篇,而是偏向理论方面,旨在更加深刻的理解Git,这样才能更好的使用它,让工具成为我们得力的助手。版本控制系统Git 是目前世界上最优秀的分布式版本控制系统。版本控制系统是能够随着时间的推进记录一系列文件的变化以便于你以后想要的退回到某个版本的系统。版本控制系统分为三大类:本地版本控制系统,集中式版本控制系统和分布式版本控制系统本地版本控制(Local Version Con
转载 2019-11-06 17:38:00
176阅读
2评论
ROS 简介 ROS(Robot Operating System)是一个适用于机器人的开源的元操作系统,是用于编写机器人软件程序的一种具有高度灵活性的软件架构,提供了操作系统应有的服务,包括硬件抽象,底层设备控制,常用函数的实现,进程间消传递,以及包管理。 一套标准 ROS中有一个称为“计算图”的 ...
转载 2021-11-01 17:07:00
1670阅读
2评论
以下内容为翻译,原文地址 https://karmada.io/zh/docs/next/ 一、Karmada核心概念 一)什么是Karmada 1、Karmada:开放,多云,多集群Kubernetes业务流程 Karmada (Kubernetes Armada)是一个Kubernetes管理系
翻译 2023-05-21 01:57:14
260阅读
Kubernetes核心概念container :容器即可以运行服务和程序,容器是独立运行的一个或一组应用。容器可以被启动、开始、停止、删除等操作,每个容器都是相互隔离的。Pod :在 Kubernetes 系统中,pod是最小部署单元,一个pod包含一个或者多个紧密相连的业务容器(即一组容器的集合)。Kubernetes为每个Pod都分配了唯一的IP地址,称之为PodIP,一个Pod里的多个容器
原创 2023-06-26 19:05:36
58阅读
Docker的主要目标是:Builder,Ship and Run Any App, Anywhere,即通过对用应用组件的封装(Packaging),(Distribution),(Deployment),(Runtime)等生命周期的管理,达到应用组件级别的"一次封装,到处运行"。这里的应用组件,既可以是一个Web应用,也可以是一套数据库服务,甚至是一个操作系统或编译器。Docke
原创 2017-08-03 15:31:26
69阅读
简介核心概念简介、服务容器、服务提供者、facade、contract、生命周期。我叫 Laravel。我是一个装了药者是他们自制的格子里面放置自己制作的药。有些药有副作用,比如可以治疗肚子疼又能治疗头痛,这样肚子疼、头不疼的患者吃了可能对头产
原创 2023-03-24 19:24:16
81阅读
目录文章目录目录时间序列范围向量多维度数据模型PromQL 聚合运算样本instance 和 jobMetric(指标)类型时间序列Prometheus 是一个时间序列存储系统,时间序列,即:一个时间点拥有一个对应值,例如:(timestamp, value)。
原创 2021-07-19 10:30:06
1012阅读
MyCat核心概念一、核心概念1.1 分片1.2 逻辑库(schema
原创 2023-02-13 15:35:40
50阅读
ElasticSearch目录文章目录三、ElasticSearch核心概念3.1、概述3.2、物理设计3.3、逻辑设
RabbitMQ简介AMQP,即AdvancedMessageQueuingProtocol,高级消息队列协议,是应用层协议的一个开放标准,为面向消息的中间件(http://www.diggerplus.org/archives/tag/%e4%b8%ad%e9%97%b4%e4%bb%b6"中间件")设计。消息中间件主要用于组件之间的解耦,消息的发送者无需知道消息使用者的存在,反之亦然。AMQP
原创 2022-10-12 18:58:23
298阅读
  • 1
  • 2
  • 3
  • 4
  • 5