简介
巨鲸任务调度平台为美柚大数据研发的分布式计算任务调度系统,提供Spark、Flink等批处理任务的DAG调度和流处理任务的运行管理和状态监控,并具有Yarn应用管理、重复应用检测、大内存应用检测等功能。 服务基于Spring Boot 2.0开发,打包后即可运行。
该项目是一个基于SSH脚本执行机制和Yarn Rest API任务状态同步机制的任务管理平台。它具备部署简单快捷、对Spark和Flink版本无限制、支持失败重试、任务依赖、复杂任务编排(DAG)、流处理任务运行管理和监控以及Yarn应用管理等多项功能。
部署步骤
- 准备阶段
- 确保Java 1.8+环境已安装。
- 确保Mysql 5.1.0+数据库已安装并可用。
- 下载项目或使用git clone命令将项目拉取到本地。
- 为解决github上的README.md图片加载问题,在hosts文件中加入相关域名解析规则。
- 安装阶段
- 在数据库中创建名为
big-whale
的数据库。 - 运行
big-whale.sql
脚本以初始化数据库。 - 根据Spring Boot环境的配置要求,设置数据库账号密码以及SMTP信息。
- 配置
big-whale.properties
文件,根据配置项说明进行相应设置,如SSH用户名、密码、钉钉告警等。 - 修改
$FLINK_HOME/bin/flink
文件,因为Flink提交任务时只能读取本地jar包,所以需要在执行提交命令时从hdfs上下载jar包并替换脚本中的jar包路径参数。 - 使用Maven执行
mvn clean package
命令进行项目打包。
- 在数据库中创建名为
- 启动阶段
- 检查端口17070是否被占用,如果被占用,则需要关闭占用的进程或修改项目中的端口号配置并重新打包。
- 拷贝
target
目录下的big-whale.jar
文件。 - 执行
java -jar big-whale.jar
命令启动项目。
注意事项
- 在配置过程中,请确保提供的SSH用户名和密码具有足够的权限来执行脚本。
- 如果需要开启钉钉告警功能,确保已经获得了正确的钉钉公共群机器人Token。
- Yarn应用内存上限和白名单列表的设置可以根据实际环境和需求进行调整。
- Flink配置修改是为了确保在提交任务时能够正确地从hdfs下载并替换jar包路径。
- 端口检查是为了避免启动时的端口冲突问题。
截图
开源地址
© 版权声明
THE END
请登录后查看评论内容