分布式训练
多框架、多卡、多节点 — 从单机实验到大规模分布式训练的无缝扩展
产品概述
核心能力
五大框架支持
原生支持 PyTorch、TensorFlow、DeepSpeed、MPI、LlamaFactory,每种框架自动配置对应的任务角色(master/worker/ps/launcher),用户无需手动编排分布式拓扑。
Volcano 分布式调度
基于 Volcano Gang Scheduling 实现多 Pod 协同调度,支持队列优先级(high/medium/low)、最小可用数保障、超时自动回收,确保大规模训练任务的资源确定性。
异构硬件统一纳管
统一资源映射覆盖 NVIDIA GPU(nvidia.com/gpu)、vGPU(volcano.sh/vgpu-number + vgpu-memory)、昇腾 NPU(volcano.sh/Ascend910A/B),同一套 API 提交任务,自动适配底层硬件。
实时进度追踪
秒级采集训练指标:step、loss、gradNorm、learningRate、epoch,前端实时绘制训练曲线。支持 LlamaFactory 框架的 tqdm 日志解析,自动识别训练阶段。
TensorBoard 集成
一键启动 TensorBoard 服务并生成 Ingress 访问地址,支持多实验对比。训练任务自动创建 TensorBoard 日志目录,无需额外配置。
模型对比与导出
训练完成后可启动临时推理服务,A/B 对比训练前后效果。确认效果后一键导出模型,支持 LoRA Merge 合并与量化导出(INT8/INT4)。
框架支持矩阵
| 框架 | 单卡训练 | 多卡并行 | 多节点分布式 | 昇腾 NPU |
|---|---|---|---|---|
| PyTorch | ✓ | ✓ | ✓ | ✓ |
| TensorFlow | ✓ | ✓ | ✓ | — |
| DeepSpeed | ✓ | ✓ | ✓ | — |
| MPI | ✓ | ✓ | ✓ | — |
| LlamaFactory | ✓ | ✓ | ✓ | ✓ |
训练工作流
选择框架
选择训练框架与资源规格,平台自动推荐任务拓扑
配置资源
指定 GPU 类型、队列优先级、数据存储、共享内存
提交任务
Volcano 调度器协同分配资源,Gang Scheduling 保障一致启动
监控训练
实时 loss 曲线、Pod 级 GPU/显存监控、TensorBoard 可视化
导出模型
A/B 对比验证效果,一键导出或合并模型