spark体验与介绍实验总结 spark实验报告

转载

码海探险家 2024-08-14 10:18:43

文章标签 spark体验与介绍实验总结 spark scala Shell 文章分类 Spark 大数据

spark体验与介绍实验总结 spark实验报告_spark

二、官网下载安装Scala：scala-2.12.8.tgz

https://www.scala-lang.org/download/ tar -zxvf scala-2.12.8.tgz -C /opt/module

mv scala-2.12.8 scala

测试：scala -version

启动：scala

三、官网下载安装Spark：spark-2.4.2-bin-hadoop2.7.tgz
https://www.apache.org/dyn/closer.lua/spark/spark-2.4.2/spark-2.4.2-bin-hadoop2.7.tgz 解压、重命名
启动spark
①先启动hadoop 环境
start-all.sh ②启动spark环境
进入到SPARK_HOME/sbin下运行start-all.sh
/opt/module/spark/sbin/start-all.sh
[注] 如果使用start-all.sh时候会重复启动hadoop配置，需要./在当前工作目录下执行命令
jps 观察进程多出 worker 和 mater 两个进程。
查看spark的web控制页面：http://bigdata128:8080/ 显示spark的端口是7070
③启动Spark Shell
首先，请登录Linux系统(要注意记住登录采用的用户名，本教程统一采用hadoop用户名进行登录)，打开“终端”（可以在Linux系统中使用Ctrl+Alt+T组合键开启终端），进入shell命令提示符状态，然后执行以下命令进入spark-shell：
cd /usr/local/spark
./bin/spark-shell
…//这里省略启动过程显示的一大堆信息
scala>
此模
启动进入spark-shell需要一点时间，在进入spark-shell后，我们可能还需要到Linux文件系统中对相关目录下的文件进行编辑和操作（比如要查看spark程序执行过程生成的文件），这个无法在park-shell中完成，因此，这里再打开第二个终端，用来在Linux系统的Shell命令提示符下操作。
式用于interactive programming，先进入bin文件夹后运行：spark-shell

④退出Spark Shell
scala> :quit

四、使用Spark Shell编写代码

读取本地文件

cat命令会把word.txt文件的内容全部显示到屏幕上。

现有让我们切换回到第一个终端，也就是spark-shell，然后输入下面命令：

spark体验与介绍实验总结 spark实验报告_spark_02

显示第一行内容

val后面的是变量textFile，而sc.textFile()中的这个textFile是sc的一个方法名称，这个方法用来加载文件数据。这两个textFile不是一个东西，不要混淆。实际上，val后面的是变量textFile，你完全可以换个变量名称，比如,val lines = sc.textFile(“file:///usr/local/spark/mycode/wordcount/word.txt”)。这里使用相同名称，就是有意强调二者的区别。

注意，要加载本地文件，必须采用“file:///”开头的这种格式。执行上上面这条命令以后，并不会马上显示结果，因为，Spark采用惰性机制，只有遇到“行动”类型的操作，才会从头到尾执行所有操作。所以，下面我们执行一条“行动”类型的语句，就可以看到结果：

spark体验与介绍实验总结 spark实验报告_spark_03

读取HDFS文件

spark体验与介绍实验总结 spark实验报告_spark体验与介绍实验总结_04

对上述hdfs根目录下f1.txt文件进行词频统计

spark体验与介绍实验总结 spark实验报告_spark_05

查看结果

spark体验与介绍实验总结 spark实验报告_spark体验与介绍实验总结_06

五、用Scala语言编写Spark独立应用程序
见参考资料：Spark2.1.0入门：第一个Spark应用程序：WordCount
任务：编写一个Spark应用程序，对某个文件中的单词进行词频统计。
准备工作：请进入Linux系统，打开“终端”，进入Shell命令提示符状态，然后，执行如下命令新建目录：
cd /usr/local/spark
mkdir mycode
cd mycode
mkdir wordcount
cd wordcount
然后，在“/usr/local/spark/mycode/wordcount”目录下新建一个包含了一些语句的文本文件word.txt，命令如下：
vim word.txt
你可以在文本文件中随意输入一些单词，用空格隔开，我们会编写Spark程序对该文件进行单词词频统计。然后，按键盘Esc键退出vim编辑状态，输入“:wq”保存文件并退出vim编辑器。
六、用Java语言编写Spark独立应用程序