基于Spark大数据分析的音乐项目分析大数据spark经典案例

转载

mob64ca13fa2f9e 2023-11-07 14:47:27

文章标签 基于Spark大数据分析的音乐项目分析 spark hadoop sql 文章分类 Spark 大数据

Spark集群模式

基于Spark大数据分析的音乐项目分析大数据spark经典案例_sql

Spark集群模式Standalone，之前安装的配置模式就是Standalone，自己有集群，有一个master和三个work。这种集群是没有做HA的，因为想做HA可以集群的管理框架。

例子-Pyspark

1、以hadoop用户登录。

命令：su – hadoop

基于Spark大数据分析的音乐项目分析大数据spark经典案例_hadoop_02

2、进入Spark的安装目录下。

命令：cd /hadoop/Spark/spark-2.4.0-bin-hadoop3.1.2/

基于Spark大数据分析的音乐项目分析大数据spark经典案例_基于Spark大数据分析的音乐项目分析_03

3、进入Python环境。

命令：bin/pyspark

基于Spark大数据分析的音乐项目分析大数据spark经典案例_基于Spark大数据分析的音乐项目分析_04

4、查询。

命令：

from os.path import expanduser, join, abspathfrom pyspark.sql import SparkSession

from pyspark.sql import Row

warehouse_location = abspath('/user/hive/warehouse')

spark = SparkSession.builder.appName("Python Spark SQL Hive integration example").config("spark.sql.warehouse.dir",warehouse_location).enableHiveSupport().getOrCreate()

spark.sql("SELECT * FROM test.employee").show()

注：查询失败，需要将hive的配置文件拷贝到Spark配置目录下。

基于Spark大数据分析的音乐项目分析大数据spark经典案例_基于Spark大数据分析的音乐项目分析_05

5、退出命令行。

命令：quit()

基于Spark大数据分析的音乐项目分析大数据spark经典案例_hadoop_06

6、进入到Spark的配置目录下。

命令：cd /hadoop/Spark/spark-2.4.0-bin-hadoop3.1.2/conf/

基于Spark大数据分析的音乐项目分析大数据spark经典案例_基于Spark大数据分析的音乐项目分析_07

7、将hive的配置文件拷贝到Spark配置目录下。

命令：scp app-12:/hadoop/Hive/apache-hive-3.1.1-bin/conf/hive-site.xml ./

基于Spark大数据分析的音乐项目分析大数据spark经典案例_hadoop_08

8、将hive-site.xml拷贝到app-13上。

命令：scp hive-site.xml app-13:/hadoop/Spark/spark-2.4.0-bin-hadoop3.1.2/conf/

基于Spark大数据分析的音乐项目分析大数据spark经典案例_基于Spark大数据分析的音乐项目分析_09

9、切换到spark的根目录下。

命令：cd /hadoop/Spark/spark-2.4.0-bin-hadoop3.1.2/

基于Spark大数据分析的音乐项目分析大数据spark经典案例_基于Spark大数据分析的音乐项目分析_10

10、运行pyspark。

命令：bin/pyspark

基于Spark大数据分析的音乐项目分析大数据spark经典案例_hadoop_11

11、select查询。

命令：spark = SparkSession.builder.appName("Python Spark SQL Hive integration example").config("spark.sql.warehouse.dir",warehouse_location).enableHiveSupport().getOrCreate()spark.sql("SELECT * FROM test.employee").show()

基于Spark大数据分析的音乐项目分析大数据spark经典案例_spark_12

12、count查询。

命令：spark.sql("SELECT COUNT(*) FROM test.employee").show()

基于Spark大数据分析的音乐项目分析大数据spark经典案例_spark_13

13、退出命令行。

命令：quit（）

基于Spark大数据分析的音乐项目分析大数据spark经典案例_hadoop_14

Python脚本通过spark-submit提交yarn集群

如果没有做Pyspark例子，可以参考例子将hive的配置文件拷贝到整个集群的Spark配置目录下。

1、进入到Spark例子目录下。

命令：cd /tmp/Spark-stack/Spark/case/

基于Spark大数据分析的音乐项目分析大数据spark经典案例_spark_15

2、将SparkHiveExample.py程序拷贝到Spark安装目录下。

命令：cp SparkHiveExample.py /hadoop/Spark/spark-2.4.0-bin-hadoop3.1.2/

基于Spark大数据分析的音乐项目分析大数据spark经典案例_spark_16

3、进入spark的安装目录下。

命令：cd /hadoop/Spark/spark-2.4.0-bin-hadoop3.1.2/

基于Spark大数据分析的音乐项目分析大数据spark经典案例_基于Spark大数据分析的音乐项目分析_17

4、将程序提交给yarn集群。

命令：./bin/spark-submit SparkHiveExample.py --master yarn --deploy-mode cluster --driver-memory 2g --executor-memory 1g --executor-cores 1 --queuedefault

基于Spark大数据分析的音乐项目分析大数据spark经典案例_sql_18

基于Spark大数据分析的音乐项目分析大数据spark经典案例_spark_19

Python-Scala版本

如果没有做Pyspark例子，可以参考例子将hive的配置文件拷贝到整个集群的Spark配置目录下。

1、进入命令行。

命令：bin/spark-shell 注：默认进入Scala编译环境。

基于Spark大数据分析的音乐项目分析大数据spark经典案例_spark_20

2、交互性执行。

命令：

import java.io.Fileimport org.apache.spark.sql.{Row, SaveMode, SparkSession}
val warehouseLocation = new File("/user/hive/warehouse").getAbsolutePath
val spark = SparkSession.builder().appName("Spark Hive
Example").config("spark.sql.warehouse.dir",warehouseLocation).enableHiveSupport().getOrCreate()
import spark.implicits._
import spark.sql

基于Spark大数据分析的音乐项目分析大数据spark经典案例_基于Spark大数据分析的音乐项目分析_21