跳到主要内容

Rise CAMP:AI 算力调度平台

切得细 · 用得准:四重智能调度策略,让每一寸显存都被精准使用

产品概述

Rise CAMP 解决的核心问题是:GPU 很贵,但大部分时间没被好好用。它在 Rise VAST 纳管的算力资源之上,通过 vGPU 切分让一张卡变多张卡,通过四重调度策略让每个任务找到最合适的 GPU。同时为研发团队提供开箱即用的开发环境、多集群管理和分布式训练能力,也是 Rise MAX 一体机的核心调度引擎。
30→70 %

GPU 集群利用率提升

4

智能调度策略

10 +

国产芯片厂商适配

6,000 +

GPU 纳管规模

核心能力:切得细

核心能力:切得细

vGPU 细粒度切分

算力和显存细粒度切分,多个任务共享一张物理卡。支持算力和显存超分,200+ 小模型按需加载,单卡变多卡,GPU 利用率从 30% 提升至 70% 以上。

国产卡动态切分

突破昇腾和昆仑芯原厂固定规格限制(昇腾仅支持 1/2、1/4 卡,昆仑芯仅支持 24/48/96GB)。实现智能动态分配,按需切分,无需重启,配置管理从手动复杂操作升级为一键部署。

显存隔离与对齐

严格的显存边界检查,防止越界导致性能差、程序崩溃。用户请求自动对齐到有效规格,确保不同容器间的资源隔离,实时监控显存使用情况。

大小模型混部

支撑 Agent 时代的多模型混部场景:将 7B 路由模型、14B 总结模型、8B Embedding 模型精准切分到同一张 80G 卡(20G + 30G + 30G),硬隔离互不影响。

投机解码底座

通过细粒度划分,将 7B 草稿模型和 72B 目标模型精巧部署在同一物理节点的特定 vGPU 切片上,利用节点内共享内存极速数据交换,无需浪费整卡资源。

K8s 标准化与原子化

将 GPU 资源「降维」为像 CPU 和内存一样的标准 K8s 可计量资源,直接使用 Volcano 等高级调度器进行 Bin-packing,让每一寸显存都被精准使用。

研发效能

开箱即用开发环境

提供预装 PyTorch/TensorFlow/Paddle 的 Jupyter 和 VSC 开发机,支持 SSH 接入和 TensorBoard 原生集成,实现环境秒级启动,告别繁琐的环境配置。

分布式训练任务

一键提交多机多卡分布式训练任务,支持 PyTorch、TensorFlow、MPI、DeepSpeed 等主流训练框架,内置 TensorBoard 原生支持,可视化了解训练进展。

多租户资源隔离

基于角色的四层级访问控制(平台管理员、租户负责人、项目管理员、项目成员),资源配额按团队和项目分配,共享池与独享池灵活组合。

断点续训与故障自愈

训练任务自动 checkpoint 保存,故障节点自动隔离并重新调度,最大限度减少因硬件故障导致的训练时间浪费。

镜像服务与存储

内置镜像仓库服务,支持基础镜像、自定义镜像和外部镜像地址。提供公共存储和自定义存储配置,数据持久化保障。

多集群统一管理

跨地域、跨架构(x86/ARM)的多 K8s 集群统一管理与调度,通过局域网通信实现集群间资源协同,支持边缘节点 vGPU 纳管。

应用场景

多源异构算力资源池

统一纳管 NVIDIA H20、昇腾 910B、昆仑芯 P800 等多架构集群。某国有银行利用 Rise CAMP 构建异构算力资源池,纳管超过 600 台服务器,资源利用率提升 50% 以上。

推理服务与 Agent 混部

通过 vGPU 切分与优先级调度,在同一集群中混合部署在线推理和离线训练任务。某运营商集群超过 100 台服务器,部署模型服务及 AI 应用超过 500 个,GPU 利用率提升至 70%+

多租户 AI 开发平台

为多个研发团队提供统一的开发环境和算力资源。某金融机构基于 Rise CAMP 部署风控、营销、客服等多场景 AI 应用,支持 数百个 模型服务稳定运行。

跨地域多集群调度

跨北京、内蒙古等多数据中心的异构集群统一管理,100G 带宽互联。某制造企业通过 Rise CAMP 统一管理本地和远端 GPU 资源,资源利用率提升 60% 以上。

常见问题

01 Rise CAMP 和 Run:ai、Volcano、Kueue 的区别是什么?
三者定位都是 AI 工作负载调度,但侧重点不同:Volcano / Kueue 是 K8s 原生批处理调度器,强项是队列管理和 gang scheduling,但缺乏对 GPU 虚拟化和国产芯片的深度支持。Run:ai 提供完整的 AI 调度方案,但不开源、强绑定 NVIDIA、对国产化场景几乎不支持Rise CAMP 的差异化在于:(1) 与 Rise VAST 深度集成,调度决策可下沉到 vGPU 粒度;(2) 原生支持昇腾、寒武纪等国产芯片的拓扑感知调度;(3) 拓扑 / 优先级 / 负载 / 资源四重感知策略;(4) 完全私有化部署,支持信创全栈。
02 CAMP 必须配合 VAST 使用吗?
CAMP 作为 Kubernetes 原生调度器,可以独立运行在标准 GPU 集群上,提供拓扑感知、优先级抢占、公平队列等能力。但 CAMP + VAST 组合是最佳实践——VAST 提供 vGPU 虚拟化能力,CAMP 才能把调度决策做到 vGPU 粒度,实现真正的细粒度共享和算力超分。
03 CAMP 的调度策略具体有哪些?怎么选?
CAMP 提供 四重感知调度拓扑感知(NVLink / PCIe / NUMA 优先就近调度,避免跨拓扑通信瓶颈,对多卡训练任务尤其关键)、优先级感知(高优任务可抢占低优任务,支持多级队列)、负载感知(按实时 GPU 利用率动态分配,避免热点)、资源感知(按显存 / 算力 / 网络带宽多维度匹配)。也支持 gang scheduling、binpack / spread、自定义打分插件。可以为不同业务团队配置不同的调度策略组合。
04 多机多卡分布式训练如何调度?支持 PyTorch DDP / DeepSpeed 吗?
原生支持 PyTorch DDP、DeepSpeed、Megatron、Horovod 等主流分布式训练框架。CAMP 的拓扑感知调度会优先把同一训练任务的多个 worker 分配到同节点 NVLink 直连的 GPU,跨节点时优先选择高速 IB / RoCE 互联的拓扑。配合 gang scheduling(要么全部 Pod 启动、要么全部不启动),避免分布式训练任务因为部分 Pod 卡住而浪费资源。
05 如果集群资源不够,新提交的任务会被拒绝还是排队?支持抢占吗?
CAMP 提供完整的队列管理:资源充足时直接调度,不足时进入队列等待,支持按优先级排序、配额超出限制、最长等待时间等策略。支持优先级抢占——高优任务可以驱逐正在运行的低优任务(如夜间训练让位给白天推理服务),被抢占的任务自动重新排队。所有抢占决策都有审计日志,支持配置"不可抢占"白名单保护关键业务。
06 如何避免某个团队/项目把整个集群占满?多租户配额怎么管?
CAMP 提供 多级配额管理:集群级 → 租户级 → 项目级,每一级都可以配置 GPU 卡数、显存、CPU、内存等资源上限。配合公平队列调度,多个团队同时提交任务时按配额比例分配资源,避免单一团队独占。所有配额使用情况实时可视化。
07 推理服务和训练任务能否共享集群?怎么避免互相影响?
这正是 CAMP 的核心场景之一:训推混部。通过配合 VAST 的 vGPU 虚拟化,可以在同一张物理 GPU 上同时跑推理服务(高优、低延迟)和训练任务(低优、可抢占)。CAMP 的优先级抢占 + 算力配额确保推理服务的 SLA 不受训练影响,训练任务在推理负载下降时自动获得更多算力。整体 GPU 利用率可从 30% 提升到 70%+
08 如何接入企业现有的 IAM / LDAP / SSO?权限模型是什么样的?
CAMP 支持标准的 OIDC、LDAP、SAML、企业微信、钉钉 等身份认证协议,可对接企业现有的 IAM 系统(如 OKTA、Auth0、Keycloak、自研 IAM)。权限模型基于 K8s RBAC 扩展,提供租户 / 项目 / 角色三级权限,支持细粒度的资源访问控制(哪个用户能在哪个项目下使用哪些 GPU 资源)。所有操作都有审计日志,满足等保合规要求。