spark lightgbm 安装 spark安装详细教程

转载

mob6454cc627440 2023-06-05 11:05:42

文章标签 spark lightgbm 安装 spark hadoop Python 文章分类 Spark 大数据

Spark的安装及介绍

*以下内容由《Spark快速大数据分析》整理所得。

读书笔记的第一部分是记录如何安装Spark？同时，简单介绍下Spark。

一、Spark安装

二、Spark介绍

spark lightgbm 安装 spark安装详细教程_spark

一、Spark安装

如果是在个人电脑上学习Spark，建议先建个虚拟机，教程可参考1. 安装虚拟机，Hadoop和Hive。

在下载Spark之前得确认之前安装的Hadoop版本是什么？

# 查看hadoop版本(这里我是2.7.7)
hadoop version

然后，去官网下载兼容现有hadoop版本的spark并解压安装包：

cd~
tar -xf spark-3.0.0-bin-hadoop2.7.tgz
cd spark-3.0.0-bin-hadoop2.7
ls

现在，安装好了就可以试运行下Python或Scala版本的Spark shell了：

# 打开Python版本的Spark shell
cd spark-3.0.0-bin-hadoop2.7
bin/pyspark

# 打开Scala版本的Spark setshell
bin/spark-shell

spark lightgbm 安装 spark安装详细教程_Python_02

二、Spark介绍

“Spark是一个用来实现快速而通用的集群计算的平台。”，它一个主要特点是能够在内存中进行计算，因而更快。

1. Spark的核心组件有两个：驱动器程序(driver program)和执行器(executor)。

驱动器程序：shell启动时已自动创建一个SparkContext对象(也称sc变量)去访问Spark。有了SparkContext，就可以用它创建RDD(弹性分布式数据集resilient distributed dataset，不能看作是存放着特定数据的数据集，而是看作如何计算数据的指令列表)。
执行器：驱动器程序一般要管理多个执行器节点，不同节点会执行不同的工作，在集群上实现并行数据分析。

例如Python的行数统计
$bin/pyspark
>>>lines = sc.textFile("README.md") # 使用sc创建一个名为lines的RDD
>>>lines.count() # 执行器统计RDD中元素的个数
108

2. 运行Python脚本：使用Spark自带的bin/spark-submit脚本帮我们引入Python程序的Spark依赖（相当于为Spark的PythonAPI配置好的运行环境）

bin/spark-submit my_python_script.py

3. 在python中初始化Spark:

from pyspark import SparkConf, SparkContext

# 创建一个SparkConf对象来配置你的应用
conf = SparkConf().setMaster("local").setAppName("My App")

# 基于这个SparkConf创建一个SparkContext对象
sc = SparkContext(conf = conf)

曼彻斯特大学数据科学研究生已毕业
现居地：深圳
兴趣领域：数据挖掘，机器学习及计算机视觉
Github：https://github.com/AlvinAi96

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。