idea jar运行 spark idea运行spark代码

转载

mob64ca13f87273 2023-08-27 15:26:09

文章标签 idea jar运行 spark spark 应用程序 Scala 文章分类 Spark 大数据

spark应用程序的开发可以在本地，也可以在集群模式下。使用IDEA与使用eclipse开发的步骤基本一致，程序内容完全一样，只是对集成开发环境的操作有所不同。

一、安装IDEA集成开发环境

1、（https://www.jetbrains.com/idea/）在这个连接下可以下载各种版本的IDEA，可以选择Windows，Linux，Mac三种环境。

2、直接安装IDEA即可，安装过程中会提示你安装Scala插件，选择install可以安装，也可以略过这个步骤。在安装完IDEA后自己去下载一个Scala插件（http://plugins.jetbrains.com/plugin/?idea&id=1347）。

3、打开IDEA -> 选择plugin -> 点击browse from disk 选择你下载的Scala插件即可。

二、编写spark应用程序

1、点击File -> Project 填写project name 以及文件保存位置，

Project SDK点击new 选择你再本地安装的SDK，Scala SDK选择Create点击你刚才安装的ScalaSDK。点击finish即可。

2、生成入下图所示的工程，单击File -->> 选择Project Structure，点击那个绿色的加号，选择你解压后的spark，比如我的点击加号，选择E盘，找到spark的目录，选择spark-1.6.2-bin-hadoop2.6 -->> 选择lib，选择spark-assembly-1.6.2-hadoop2.6.0.jar，点击OK即可。或生成如下所示：

3、创建Spark应用程序

选中WordCount下面的src.，右键 -> new -> package ,填写包名，此处填写WordCount，然后再选中WordCount包 -> 右键 -> new -> scala class 将kind改为object，填写

name，此处写为WordCount，生成图如下所示：

此时就可以编写应用程序了。

3、编写玩应用程序之后，打包生成jar文件。

点击FIle -> Project Structure -> Artifacts -> 点击加号 -> jar -> From Modules With Dependencies -> Main Class -> WordCount -> 生成如下图所示

选中所有带有Extracted，点击减号，因为这是一些依赖的文件，在你搭建的Spark集群中都有。去掉之后变成这样：

点击OK

4、在应用程序开发界面，点击Build -> build artifacts -> WordCount -> Build 之后就会生成jar包

将生成的jar包复制到Linux下。

5、启动Hadoop，Spark集群。不用启动Scala。

6、可以使用命令行执行你的jar包，也可以使用shell文件执行jar包，二者其实本质是一样的，只不过shell文件是你再命令行时使用的指令，打包成一个文件。