打包Spark程序并上传到集群

配置JDK，Scala，Hadoop，Spark运行环境，安装IDEA。

PS：注意spark、Scala、Hadoop之间的版本对应关系，否则可能会报错。

IDEA中点击File->new->Project

之后填写项目名称，存储路径，选择JDK版本，Sbt版本，Scala版本

其中Scala版本必须与Spark编译使用的版本一致，可以通过Spark官网查询Scala版本

构建完成后的目录如下

工程中的build.sbt内容如下：

第二步中Spark官网页面中Link with Spark中列出了Spark的Maven依赖版本，然后我们向build.sbt中添加如下语句：

libraryDependencies += "org.apache.spark" % "spark-core_2.11" % "2.2.0"

build.sbt中各行语句需要隔行，可以添加多个依赖，修改之后页面会出现如下内容：

选择 Import Change，等待完成，首次时间可能有点长

在IDEA项目中找到src->main->scala,右键new->ScalaClass,填写主类名字，类别选择Object

然后编写代码

File->Project Structure->Artifacts,点击“+”号

填写主类名称，一定与程序中的主类名称一致

然后Build->BuildArtifacts,等待build完成。至此，jar包打包完毕

在spark的根目录下，通过以下命令启动

启动master

./sbin/start-master.sh

启动worker

 ./bin/spark-class org.apache.spark.deploy.worker.Worker spark://localhost:7077

启动master后，在浏览器输入：8080，可以查看master地址

启动后通过jps查看进程是否成功启动

然后将打包好的jar包上传，jar包在项目目录下的out\artifacts下

提交命令，根据自己的路径和类名修改

 ./bin/spark-submit --master spark://localhost:7077 --class WordCount /home/hyk/sparkprogram/Example/out/artifacts/example_jar/example.jar

在4040端口查看job进度

至此，便完整的实现了从打包到上传运行的过程。

前期准备