1. 软件安装

官网下载 Spark。

spark-4.0.0-bin-hadoop3.tgz

将上面的包下载后传到 hadoop102 下的/opt/software下。解压到/opt/module下。

cd /opt/software/
tar -xzf spark-3.4.4-bin-hadoop3.tgz -C /opt/module/
cd /opt/module
mv spark-3.4.4-bin-hadoop3 spark-3.4.4

2. 提交任务到Yarn上

2.1 配置Yarn

到Spark的home目录下，修改conf目录下的配置文件spark-env.sh。

cp spark-env.sh.template spark-env.sh

vim spark-env.sh
# 添加如下内容
# yarn的配置文件所在目录
YARN_CONF_DIR=/opt/module/hadoop-3.4.0/etc/hadoop

2.2 提交任务

使用Spark自带的一个计算圆周率的例子。

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
./examples/jars/spark-examples_2.12-3.4.4.jar \
10

执行结果。

3. 配置历史服务器

到Spark的home目录下，修改conf目录下的配置文件spark-defaults.conf。

cp spark-defaults.conf.template spark-defaults.conf

vim spark-defaults.conf
# 添加如下内容
spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://hadoop102:8020/directory
spark.yarn.historyServer.address=hadoop102:18080
spark.history.ui.port=18080

修改conf目录下的配置文件spark-env.sh，追加如下内容。

export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080
-Dspark.history.fs.logDirectory=hdfs://hadoop102:8020/directory
-Dspark.history.retainedApplications=30
"

在hdfs上添加目录directory。

http://hadoop102:9870/

启停历史服务器命令

1 2	bin/start-history-server.sh bin/stop-history-server.sh

启动历史服务器后，并且跑完任务后可以在http://hadoop103:8088/上看到任务，点击history可以看到详情。

2025-08-19 16:33:55 # 大数据 #Spark