进入spark 客户端如何进入spark

转载

温柔一刀 2023-08-04 18:17:58

文章标签 进入spark 客户端 spark python scala 文章分类 Spark 大数据

Spark学习笔记-开始第一个spark程序

　　在安装完Spark，其实最疑惑还是Spark怎么用的问题，由于也是刚学习linux，也不是很习惯linux下的命令行操作。按照Spark的官方文档，我们开始编写Spark的的第一个程序。

一、标准进入spark方式

　　很多人在安装完spark后就懵了，本人也是一样。毕竟spark在linux下没有什么桌面图标这种明显的东西。要启动Spark，我们先要进入Spark的目录下。我们在Unbutu桌面输入Ctrl+Alt+T 打开控制台，然后输入：

cd /usr/lib/spark/spark-1.4.0

　　这个路径是我的安装路径，也就是spark的目录。Spark一共提供了3中API 分别为 scala、java以及python，同时提供了scala和python的命令行操作。
　　
　　进入scala环境，输入：

./bin/spark-shell

　　进入python环境，输入：

./bin/pyspark

二、快捷进入spark方式

　　这个是官方提供的进入spark命令行的方式，实际上我发现直接呼出控制台然后直接输入spark-shell以及pyspark也能够直接进入相应的环境。如果能够直接进入spark的环境，那么就可以偷个懒直接输入spark-shell和pyspark。

三、编写spark的第一个程序

　　由于本人不太熟悉python，同时spark的官方例程也是scala编写的，所以这里的DEMO默认都是spark环境下的程序。
　　Spark最主要的抽象是RDD，前面一篇文章《Spark学习笔记-Spark-弹性分布式数据集RDDs》已经初步的总结了一下。RDD有很多的创建方式，我们甚至可以通硬盘中的一个txt文件创建一个RDD。
　　输入：