yunikorn spark

原创

mob64ca12e7b5cf 2024-07-03 03:17:08 ©著作权

文章标签 spark 资源调度执行效率 文章分类 Spark 大数据

©著作权归作者所有：来自51CTO博客作者mob64ca12e7b5cf的原创作品，请联系作者获取转载授权，否则将追究法律责任

云计算中的资源调度器yunikorn spark

介绍

在云计算环境中，资源调度器是非常重要的组件，它负责管理和分配计算资源，以确保各个任务能够顺利运行。yunikorn是一个开源的资源调度器，专门设计用于云环境中的大规模集群。它支持多种作业类型，包括Spark作业。

yunikorn spark

yunikorn spark是yunikorn专门为Spark作业设计的调度器。它结合了yunikorn的资源调度能力和Spark的计算框架，可以有效地管理和调度Spark作业，提高作业的执行效率和资源利用率。

安装

要使用yunikorn spark，首先需要安装yunikorn资源调度器和Spark。安装步骤如下：

下载并安装yunikorn资源调度器

git clone 
cd incubator-yunikorn-core
mvn clean install -DskipTests

下载并安装Spark

wget 
tar -xvf spark-3.1.2-bin-hadoop3.2.tgz

配置yunikorn spark

在Spark的conf/spark-env.sh文件中添加以下配置：

export SPARK_RESOURCE_TYPE=yunikorn
export SPARK_YUNIKORN_SCHEDULER_URL=yunikorn://localhost:9080

使用

配置完毕后，就可以使用yunikorn spark来调度Spark作业了。下面是一个简单的Spark作业示例：

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("yunikorn-spark-demo").getOrCreate()
data = [("Alice", 34), ("Bob", 45), ("Cathy", 25)]
df = spark.createDataFrame(data, ["name", "age"])
df.show()

饼状图示例

pie
    title 饼状图示例
    "A": 40
    "B": 20
    "C": 30
    "D": 10

状态图示例

stateDiagram
    [*] --> State1
    State1 --> [*]
    State1: entry/ action1
    State1: exit/ action2
    State1: entry/ action3
    State1: exit/ action4