|
配置JDK,Scala,Hadoop,Spark运行环境,安装IDEA。
PS:注意spark、Scala、Hadoop之间的版本对应关系,否则可能会报错。
IDEA中点击File->new->Project

之后填写项目名称,存储路径,选择JDK版本,Sbt版本,Scala版本

其中Scala版本必须与Spark编译使用的版本一致,可以通过Spark官网查询Scala版本

构建完成后的目录如下

工程中的build.sbt内容如下:

第二步中Spark官网页面中Link with Spark中列出了Spark的Maven依赖版本,然后我们向build.sbt中添加如下语句:
libraryDependencies += "org.apache.spark" % "spark-core_2.11" % "2.2.0"
build.sbt中各行语句需要隔行,可以添加多个依赖,修改之后页面会出现如下内容:

选择 Import Change,等待完成,首次时间可能有点长
在IDEA项目中找到src->main->scala,右键new->ScalaClass,填写主类名字,类别选择Object

然后编写代码

File->Project Structure->Artifacts,点击“+”号

填写主类名称,一定与程序中的主类名称一致

然后Build->BuildArtifacts,等待build完成。至此,jar包打包完毕
在spark的根目录下,通过以下命令启动
启动master
./sbin/start-master.sh
启动worker
./bin/spark-class org.apache.spark.deploy.worker.Worker spark://localhost:7077
启动master后,在浏览器输入 :8080,可以查看master地址

启动后通过jps查看进程是否成功启动

然后将打包好的jar包上传,jar包在项目目录下的out\artifacts下
提交命令,根据自己的路径和类名修改
./bin/spark-submit --master spark://localhost:7077 --class WordCount /home/hyk/sparkprogram/Example/out/artifacts/example_jar/example.jar
在4040端口查看job进度

至此,便完整的实现了从打包到上传运行的过程。 |