跳到主要内容

分布式训练

多框架、多卡、多节点 — 从单机实验到大规模分布式训练的无缝扩展

产品概述

基于 Volcano 调度器构建的企业级分布式训练平台,支持 PyTorch、TensorFlow、DeepSpeed、MPI、LlamaFactory 五大主流框架,覆盖 NVIDIA GPU、vGPU、昇腾 NPU 等异构硬件,提供 12 态状态机全生命周期管理、实时训练进度追踪与 TensorBoard 可视化。

核心能力

五大框架支持

原生支持 PyTorch、TensorFlow、DeepSpeed、MPI、LlamaFactory,每种框架自动配置对应的任务角色(master/worker/ps/launcher),用户无需手动编排分布式拓扑。

Volcano 分布式调度

基于 Volcano Gang Scheduling 实现多 Pod 协同调度,支持队列优先级(high/medium/low)、最小可用数保障、超时自动回收,确保大规模训练任务的资源确定性。

异构硬件统一纳管

统一资源映射覆盖 NVIDIA GPU(nvidia.com/gpu)、vGPU(volcano.sh/vgpu-number + vgpu-memory)、昇腾 NPU(volcano.sh/Ascend910A/B),同一套 API 提交任务,自动适配底层硬件。

实时进度追踪

秒级采集训练指标:step、loss、gradNorm、learningRate、epoch,前端实时绘制训练曲线。支持 LlamaFactory 框架的 tqdm 日志解析,自动识别训练阶段。

TensorBoard 集成

一键启动 TensorBoard 服务并生成 Ingress 访问地址,支持多实验对比。训练任务自动创建 TensorBoard 日志目录,无需额外配置。

模型对比与导出

训练完成后可启动临时推理服务,A/B 对比训练前后效果。确认效果后一键导出模型,支持 LoRA Merge 合并与量化导出(INT8/INT4)。

框架支持矩阵

框架 单卡训练 多卡并行 多节点分布式 昇腾 NPU
PyTorch
TensorFlow
DeepSpeed
MPI
LlamaFactory

训练工作流

1

选择框架

选择训练框架与资源规格,平台自动推荐任务拓扑

2

配置资源

指定 GPU 类型、队列优先级、数据存储、共享内存

3

提交任务

Volcano 调度器协同分配资源,Gang Scheduling 保障一致启动

4

监控训练

实时 loss 曲线、Pod 级 GPU/显存监控、TensorBoard 可视化

5

导出模型

A/B 对比验证效果,一键导出或合并模型

返回 Rise ModelX