在达梦启云平台中SPARK的使用和其他应用的部署有很大不同。我在这记录一下我自己测试过程。
我实验在平台上启动一个SPARK流程,调用Scala编写的jar包,处理数据,处理结果存放在达梦数据库中。jar包spark-demo.jar和待处理文件都存放在HDFS中。达梦数据库DM8已经建立。
首先还是选择应用商店-大数据组件-Spark,页面点击右上角新增。
运行Spark资源最少需要剩余2核2G以上。如下图部署区域还有2.5核11G资源可以调用。
根据spark-demo.jar和HDFS和DM8数据库信息做配置。这些填入配置信息都来自HDFS地址,数据库地址和jar包代码。(根据自己的实际情况填入,完全照超是没用的,主要是要将对应信息填入对应位置。)
应用程序包(jar包)地址:(应用程序包,支持local、hdfs、http方式,我们这用hdfs)
hdfs:/hadoop-hadoop-hdfs-dfs.dmcca-system.svc:9000/user/team001/spark-demo.jar
应用入口:com.dameng.spark.examples.SparkDemo
运行参数:
参数1.数据文件地址:
hdfs://hadoop-hadoop-hdfs-dfs.dmcca-system.svc:9000/user/team001/demo.txt
参数2.达梦数据库地址:jdbc:dm://dm8.teamg01.svc:5236
hadoop的配置:(填入自己的hadoop user name 如果不知道一般用root)
hadoop user name:teamname001
core-site.xml 配置:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop-hadoop-hdfs-dfs.dmcca-system.svc:9000/</value>
</property>
</configuration>
首先还是填入名称。注意选择你spark运行的语言我们用的Scala,还能用JAVA,Python等。
我们需要加两个命令行参数
对应不要错误填完如下。
Spark运行完会释放所有资源可以分配多一些资源,但是不要超出限制。超出限制Spark不会启动。
因为这里连接的HDFS没有建立在这个租户,选择外部hadoop集群。
配置core-site.xml 注意端口后面的”/”.
提交后就能在“我的应用”里找到。
可以点击应用右上角选择“日志”查看spark运行日志,查看流程运行过程是否报错。如果没有日志说明spark设置资源超出限制没有启动。删除后重新规划资源后创建。
当状态为”COMPLETED“时说明spark运行完成。
Spark运行完就可以选择删除它了。这样不会影响你下次再启动Spark。
去数据库看看运行结果。示例中Spark流程会在数据库中建立了一个表DEMO。表里就是我们的分析结果。