【大数据】Spark安装与配置
2025-08-19 16:33:55 # 大数据
  1. 【大数据】虚拟机Fusion初始化系统CentOS9
  2. 【大数据】Hadoop安装与配置
  3. 【大数据】Flink安装与配置
  4. 【大数据】Kafka安装与配置

1. 软件安装

官网下载 Spark。

将上面的包下载后传到 hadoop102 下的/opt/software下。解压到/opt/module下。

1
2
3
4
cd /opt/software/
tar -xzf spark-3.4.4-bin-hadoop3.tgz -C /opt/module/
cd /opt/module
mv spark-3.4.4-bin-hadoop3 spark-3.4.4

2. 提交任务到Yarn上

2.1 配置Yarn

到Spark的home目录下,修改conf目录下的配置文件spark-env.sh

1
2
3
4
5
6
cp spark-env.sh.template spark-env.sh

vim spark-env.sh
# 添加如下内容
# yarn的配置文件所在目录
YARN_CONF_DIR=/opt/module/hadoop-3.4.0/etc/hadoop

2.2 提交任务

使用Spark自带的一个计算圆周率的例子。

1
2
3
4
5
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
./examples/jars/spark-examples_2.12-3.4.4.jar \
10

执行结果。

3. 配置历史服务器

到Spark的home目录下,修改conf目录下的配置文件spark-defaults.conf

1
2
3
4
5
6
7
8
cp spark-defaults.conf.template spark-defaults.conf

vim spark-defaults.conf
# 添加如下内容
spark.eventLog.enabled true
spark.eventLog.dir hdfs://hadoop102:8020/directory
spark.yarn.historyServer.address=hadoop102:18080
spark.history.ui.port=18080

修改conf目录下的配置文件spark-env.sh,追加如下内容。

1
2
3
4
5
export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080
-Dspark.history.fs.logDirectory=hdfs://hadoop102:8020/directory
-Dspark.history.retainedApplications=30
"

在hdfs上添加目录directory。

http://hadoop102:9870/

启停历史服务器命令

1
2
bin/start-history-server.sh
bin/stop-history-server.sh

启动历史服务器后,并且跑完任务后可以在http://hadoop103:8088/上看到任务,点击history可以看到详情。