Rise CAMP:AI 算力调度平台
切得细 · 用得准:四重智能调度策略,让每一寸显存都被精准使用
GPU 集群利用率提升
智能调度策略
国产芯片厂商适配
GPU 纳管规模
核心能力:切得细
vGPU 细粒度切分
算力和显存细粒度切分,多个任务共享一张物理卡。支持算力和显存超分,200+ 小模型按需加载,单卡变多卡,GPU 利用率从 30% 提升至 70% 以上。
国产卡动态切分
突破昇腾和昆仑芯原厂固定规格限制(昇腾仅支持 1/2、1/4 卡,昆仑芯仅支持 24/48/96GB)。实现智能动态分配,按需切分,无需重启,配置管理从手动复杂操作升级为一键部署。
显存隔离与对齐
严格的显存边界检查,防止越界导致性能差、程序崩溃。用户请求自动对齐到有效规格,确保不同容器间的资源隔离,实时监控显存使用情况。
大小模型混部
支撑 Agent 时代的多模型混部场景:将 7B 路由模型、14B 总结模型、8B Embedding 模型精准切分到同一张 80G 卡(20G + 30G + 30G),硬隔离互不影响。
投机解码底座
通过细粒度划分,将 7B 草稿模型和 72B 目标模型精巧部署在同一物理节点的特定 vGPU 切片上,利用节点内共享内存极速数据交换,无需浪费整卡资源。
K8s 标准化与原子化
将 GPU 资源「降维」为像 CPU 和内存一样的标准 K8s 可计量资源,直接使用 Volcano 等高级调度器进行 Bin-packing,让每一寸显存都被精准使用。
核心能力:用得准
四重调度策略分别从优先级、拓扑、负载、资源四个维度优化算力分配,按场景灵活组合,实现最优资源利用
优先级感知调度
区分在线推理(高优先级)和离线训练(低优先级),通过潮汐混部机制共享同一物理集群。忙时优先保障在线业务,闲时自动填充低优任务,一套集群顶过去三套。
阅读详解拓扑感知调度
深度理解 NVLink / HCCS / XPU Link 等互联拓扑,基于 Floyd 最短路径算法精确计算通信代价,将多卡训练任务调度到物理距离最近的 GPU 组合,千卡集群跑出千卡的速度。
阅读详解负载感知调度
支持节点和 GPU 双维度的 Binpack(紧凑装箱)与 Spread(均匀分布)策略组合。推理服务用 Spread 实现负载均衡与高可用,多卡训练用 Binpack 实现最高利用率,解决显存碎片化。
阅读详解资源感知调度
区分「分配率」和「使用率」,打破分配率等于利用率的假象。通过多维资源感知与显存超分技术,按实际使用率调度,开发环境有效利用率提升 3-5 倍。
阅读详解研发效能
开箱即用开发环境
提供预装 PyTorch/TensorFlow/Paddle 的 Jupyter 和 VSC 开发机,支持 SSH 接入和 TensorBoard 原生集成,实现环境秒级启动,告别繁琐的环境配置。
分布式训练任务
一键提交多机多卡分布式训练任务,支持 PyTorch、TensorFlow、MPI、DeepSpeed 等主流训练框架,内置 TensorBoard 原生支持,可视化了解训练进展。
多租户资源隔离
基于角色的四层级访问控制(平台管理员、租户负责人、项目管理员、项目成员),资源配额按团队和项目分配,共享池与独享池灵活组合。
断点续训与故障自愈
训练任务自动 checkpoint 保存,故障节点自动隔离并重新调度,最大限度减少因硬件故障导致的训练时间浪费。
镜像服务与存储
内置镜像仓库服务,支持基础镜像、自定义镜像和外部镜像地址。提供公共存储和自定义存储配置,数据持久化保障。
多集群统一管理
跨地域、跨架构(x86/ARM)的多 K8s 集群统一管理与调度,通过局域网通信实现集群间资源协同,支持边缘节点 vGPU 纳管。
应用场景
多源异构算力资源池
统一纳管 NVIDIA H20、昇腾 910B、昆仑芯 P800 等多架构集群。某国有银行利用 Rise CAMP 构建异构算力资源池,纳管超过 600 台服务器,资源利用率提升 50% 以上。
推理服务与 Agent 混部
通过 vGPU 切分与优先级调度,在同一集群中混合部署在线推理和离线训练任务。某运营商集群超过 100 台服务器,部署模型服务及 AI 应用超过 500 个,GPU 利用率提升至 70%+。
多租户 AI 开发平台
为多个研发团队提供统一的开发环境和算力资源。某金融机构基于 Rise CAMP 部署风控、营销、客服等多场景 AI 应用,支持 数百个 模型服务稳定运行。
跨地域多集群调度
跨北京、内蒙古等多数据中心的异构集群统一管理,100G 带宽互联。某制造企业通过 Rise CAMP 统一管理本地和远端 GPU 资源,资源利用率提升 60% 以上。