Spark 历史记录 Web 监控 [Spark JobHistory Web UI] | logging.DEBUG 

JerryXia 发表于 , 阅读 (0)

4040端口只能看到正在运行App的情况,并不能看到App运行结束后的各项数据

Mesos或YARN模式下可以通过各自的Web UI看到JobHistory情况的,但是在Standalone模式下是有自己的JobHistory Web UI

以下内容主要是怎样开启Standalone模式下的JobHistory Web UI


测试环境

1
2
3
4
5
6
7
8
9
10
测试环境:
Ubuntu 14.04 LTS x64
Hadoophadoop-2.7.1.tar.gz
Sparkspark-1.5.2-bin-hadoop2.6.tgz
Scalascala-2.11.7.tgz

伪分布式 + Yarn

hostname IP role
spark-master: 192.168.108.20 master & worker

概述


翻译:运行结束后监控 [Viewing After the Fact]

在Spark的 Standalone 模式下,有它自己的web UI监控界面,如果一个应用程序已经记录了它的生命周期,在程序运行结束后,Standalone模式下master主机的web UI将会自动重现App的信息UI。

如果Spark运行在Mesos或YARN上,并且App的日志记录存在,依然有可能通过Spark历史服务来重新修改已经完成应用的UI。你可以通过以下内容启动历史服务:

1
./sbin/start-history-server.sh

当使用文件系统作为日志文件的存储时,必须提供 spark.history.fs.logDirectory 参数的配置(请看下面的 spark.history.provider 参数详情),并且应该包含子目录,每个子目录表示一个应用程序日志记录的位置。这将会创建一个默认web界面:

1
http://<server-url>:18080

历史服务的配置参数如下: