pyspark lightgbm模型 pyspark原理

转载

mob64ca1416f1ef 2024-01-23 13:38:45

文章标签 pyspark lightgbm模型 Hadoop 依赖关系数据 文章分类 Spark 大数据

Spark概述

Spark最初由美国加州大学伯克利分校（UC Berkeley）的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序
2013年Spark加入Apache孵化器项目后发展迅猛，如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一（Hadoop、Spark、Storm）
Spark在2014年打破了Hadoop保持的基准排序纪录

pyspark lightgbm模型 pyspark原理_依赖关系

支持多语言

pyspark lightgbm模型 pyspark原理_依赖关系_02

大数据主要的关键技术基础是分布式存储和分布式处理

Hadoop生态通过MapReduce实现数据的分布式处理，而Spark是用来代替MapReduce的一种更高效的组件，Spark只是代替了MapReduce的分布式处理，而分布式存储目前的主流框架仍是基于Hadoop生态中的HDFS组件。

pyspark lightgbm模型 pyspark原理_数据_03

使用Hadoop进行迭代计算（mapreduce）非常耗资源

pyspark lightgbm模型 pyspark原理_pyspark lightgbm模型_04

mapreduce

pyspark lightgbm模型 pyspark原理_依赖关系_05

Spark将数据载入内存后，之后的迭代计算都可以直接使用内存中的中间结果作运算，避免了从磁盘中频繁读取数据

pyspark lightgbm模型 pyspark原理_数据_06

Spark

pyspark lightgbm模型 pyspark原理_数据_07

Spark会取代Hadoop吗？

Spark和Hadoop生态系统共存共荣
Hadoop包括两大核心：HDFS和MapReduce
Spark作为计算框架，与MapReduce是对等的
谈到“取代”，Spark应该是取代MapReduce，而不是整个Hadoop
Spark借助于Hadoop的HDFS、HBase等来完成数据的存储，然后，由Spark完成数据的计算

Spark运行基本流程

RDD ： Resillient Distributed Dataset （弹性分布式数据集），分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型

DAG ： Directed Acyclic Graph （有向无环图），反映 RDD 之间的依赖关系

Executor ：运行在工作节点（ WorkerNode ）的一个进程，负责运行 Task

应用（ Application）：用户编写的 Spark 应用程序

任务（ Task ）：运行在 Executor 上的工作单元

作业（ Job ）：一个作业包含多个 RDD 及作用于相应 RDD 上的各种操作

阶段（ Stage ）：是作业的基本调度单位，一个作业会分为多组任务，每组任务被称为阶段，或者也被称为任务集合，代表了一组关联的、相互之间没有 Shuffle 依赖关系的任务组成的任务集

pyspark lightgbm模型 pyspark原理_pyspark lightgbm模型_08

Spark中各种概念之间的相互关系

一个应用由一个Driver和若干个作业构成，一个作业由多个阶段构成，一个阶段由多个没有Shuffle关系的任务组成。
当执行一个应用时，Driver会向集群管理器申请资源，启动Executor，并向Executor发送应用程序代码和文件，然后在Executor上执行任务，运行结束后，执行结果会返回给Driver，或者写到HDFS或者其他数据库中

pyspark lightgbm模型 pyspark原理_数据_09