用于监控 Replay 训练日志并推送飞书通知的轻量脚本。
- 自动定位最新训练日志(
replay-server.log) - 解析训练状态、Epoch、损失、训练耗时、进度信息
- 持续监控模式(watch)
- 飞书机器人卡片通知(开始、进度、完成/提前停止、中断)
.
├── monitor.py # 主程序:日志解析 + 监控 + 飞书推送
├── start_monitor.sh # 一键启动 watch 模式
└── README.md
- Python 3.9+
requests
安装依赖:
pip install requestspython3 monitor.py先配置飞书 webhook(使用环境变量,不写入代码):
export FEISHU_WEBHOOK="https://open.feishu.cn/open-apis/bot/v2/hook/your-webhook-id"启动监控:
python3 monitor.py watch或:
./start_monitor.sh按 Ctrl+C 停止监控。
FEISHU_WEBHOOK:飞书机器人 webhook(watch 模式必填)REPLAY_LOG_BASE_PATH:Replay 日志根目录
默认值:/Users/gudong/Library/Logs/Replay
示例:
export REPLAY_LOG_BASE_PATH="/custom/path/to/Replay/logs"
python3 monitor.py- 训练开始
- 训练进度更新(检测到 epoch 增长时)
- 训练完成或提前停止
- 训练中断(如进程被终止)
- 请勿在代码中硬编码 webhook。
- 建议将本项目日志文件加入
.gitignore,避免无关文件进入仓库。