菲立思教育的博客_JavaScript,Java,python,Mysql,Hadoop,微信开发,Spark,redis

3.spark运行模式

spark支持的运行模式：本地模式、本地集群模式、standalone模式、yarn模式及mesos模式。

spark

运行模式

本地模式

原创 2018-08-25 23:51:44 1249 阅读

2.spark基本概念

本文主要讲述spark中的基本概念，包括Application、Job、Stage、Task、ClusterManger、Executor、Driver、DAGScheduler、TaskScheduler等。

spark

基本概念

stage

DAGScheduler

原创 2018-08-25 23:49:19 1240 阅读

1.spark简介

spark是一个用于大规模数据处理的统一计算引擎。适用于各种各样原先需要多种不同的分布式平台处理的场景，包括批处理、迭代计算、交互式查询、流处理。通过统一的框架将各种处理流程整合到一起。本文主要讲解spark特性、spark生态栈、spark用户及用途、spark简史。

spark

简介

特性

spark

原创 2018-08-25 23:44:50 1190 阅读

7.spark core之数据分区

spark一个最重要的特性就是对数据集在各个节点的分区进行控制。控制数据分布可以减少网络开销，极大地提升整体性能。spark core之数据分区主要包括：分区器、影响分区的算子操作、repartition和partitionby的区别、repartition和coalesce的区别、实例分析。

spark

partitiner

partitionby

repartition

coalesce

原创 2018-08-25 22:48:00 1692 阅读

6.spark core之键值对操作

键值对RDD（pairRDD）是spark中许多操作所需要的常见数据类型，通常用来进行聚合计算。本文内容主要包括：创建Pair RDD、Pair RDD转化操作（聚合、分组、连接、排序）、Pair RDD行动操作。

spark

Pair RDD

聚合

Transformation

Action

原创 2018-08-25 22:31:20 804 阅读

8.spark core之读写数据

park支持多种数据源，从总体来分分为两大部分：文件系统和数据库。文件系统中常见的存储格式有：文本文件、json、csv与tsv、sequencefile等。数据库分为关系型数据库（MySQL、PostgreSQL等）与非关系型数据库（HBase，ElasticSearch等）

spark

csv

json

sequenceFile

JDBC

原创 2018-08-25 20:40:02 10000+阅读

5.spark core之RDD编程

spark core之RDD编程包括：五大特性、创建RDD、RDD操作(转化操作、行动操作、缓存)、容错机制。

spark

RDD

transformation

action

缓存

原创 2018-08-23 23:14:01 972 阅读

4.spark快速入门

spark快速入门：下载spark、解压spark、运行案例及交互式shell、使用spark shell进行交互式分析、独立应用

spark

scala

python

java

原创 2018-08-23 23:04:20 861 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

java大数据编程

3.spark运行模式

2.spark基本概念

1.spark简介

7.spark core之数据分区

6.spark core之键值对操作

8.spark core之读写数据

5.spark core之RDD编程

4.spark快速入门