spark支持的运行模式:本地模式、本地集群模式、standalone模式、yarn模式及mesos模式。
本文主要讲述spark中的基本概念,包括Application、Job、Stage、Task、ClusterManger、Executor、Driver、DAGScheduler、TaskScheduler等。
spark是一个用于大规模数据处理的统一计算引擎。适用于各种各样原先需要多种不同的分布式平台处理的场景,包括批处理、迭代计算、交互式查询、流处理。通过统一的框架将各种处理流程整合到一起。本文主要讲解spark特性、spark生态栈、spark用户及用途、spark简史。
spark一个最重要的特性就是对数据集在各个节点的分区进行控制。控制数据分布可以减少网络开销,极大地提升整体性能。spark core之数据分区主要包括:分区器、影响分区的算子操作、repartition和partitionby的区别、repartition和coalesce的区别、实例分析。
键值对RDD(pairRDD)是spark中许多操作所需要的常见数据类型,通常用来进行聚合计算。本文内容主要包括:创建Pair RDD、Pair RDD转化操作(聚合、分组、连接、排序)、Pair RDD行动操作。
park支持多种数据源,从总体来分分为两大部分:文件系统和数据库。文件系统中常见的存储格式有:文本文件、json、csv与tsv、sequencefile等。数据库分为关系型数据库(MySQL、PostgreSQL等)与非关系型数据库(HBase,ElasticSearch等)
spark core之RDD编程包括:五大特性、创建RDD、RDD操作(转化操作、行动操作、缓存)、容错机制。
spark快速入门:下载spark、解压spark、运行案例及交互式shell、使用spark shell进行交互式分析、独立应用
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号