Rise VAST:AI 算力管理平台
聚得全 · 算得明:统一纳管异构算力,全链路可观测,让算力资产清清楚楚
产品概述
已适配芯片
聚得全:统一纳管异构算力
睿思智联与第四范式达成战略合作,双方携手推出企业级 AI 算力池化平台:Rise VAST(HAMi 企业版),在 AI 算力资源管理、模型训练优化等方面展开深度合作。
跨地域、跨架构(x86/c86/ARM)的多 K8s 集群统一管理,共享池与独享池灵活组合
NVIDIA、昇腾、海光、寒武纪、天数智芯、昆仑芯、燧原、沐曦、摩尔线程等 10+ 厂商一套框架纳管
通过 Kubernetes Device Plugin 机制,无感实现 GPU 虚拟化与隔离,无需修改应用代码,实现算力限制与显存隔离,兼容性好,对业务透明
支持共享算力池和专属算力池,按租户和项目灵活分配配额,资源按需申请、使用和释放
支持边缘节点的 vGPU 纳管,同时支持 CAMP 和 EDGE 的云原生化改造,支持独立部署
对外提供 Web UI、REST API 和 MCP 协议三种接入方式,封装底层复杂异构环境
多集群多租户统一管理
跨地域、跨架构的异构 GPU 集群统一纳管,通过局域网通信实现集群间资源协同,6 个统一覆盖全链路
北京、内蒙古等多地域数据中心统一管理,100G 带宽互联
x86 / c86 / ARM 架构混合部署管理,含边缘节点 vGPU 纳管
共享算力池与专属算力池灵活组合,按租户和项目分配配额
算得明:全链路可观测与智能运维
全链路可观测
从 GPU 设备层到 K8s 任务层、从物理资源到租户配额的「显微镜级」观测。采集每张 GPU 卡的 SM 算力时间片占比、显存分时占用率及板间通信流量,自动构建 Pod-GPU 卡-计算单元三级映射,秒级定位算力消耗。
国产卡动态切分
突破国产芯片原厂设备插件的固定切分规格限制,实现智能动态分配、按需切分、无需重启。配置管理从复杂手动操作升级为一键部署,资源利用率从 30-50% 提升至 80-90%。
国产卡显存隔离与对齐
针对昇腾 910B 和 910C 系列的 AI Core 与显存切分组合,提供严格的显存边界检查,防止越界。用户请求自动对齐到有效规格,确保不同容器间资源隔离,实时监控显存使用。
平台级健康全景
按厂商、架构、GPU 资源池维度展示利用率水位、碎片率、故障卡分布,一张大盘掌握全局算力健康状态。
故障自动隔离
XID 故障码告警,当卡出现故障或资源使用达到阈值时,触发 P0 级告警并自动隔离故障卡,防止故障扩散影响业务。
企业级告警平台
6 步闭环:指标采集 → 规则引擎 → 告警生成 → 降噪抑制 → 分级推送 → 处置复盘。支持邮件、短信、钉钉、企微等多渠道推送,值班排班与告警推送联动。
全链路观测:节点 → 卡 → 任务 → 模型
从 GPU 设备层到 K8s 任务层、从物理资源到租户配额的全链路透视,为异构 GPU 集群提供"显微镜级"观测能力
端到端时延 · TTFT · Token 吞吐 · 响应/请求 · 资源/状态
任务驱逐 · 算力/显存监测 · 任务日志 · 任务状态 · 设备互联信息
显卡禁用/启用 · 故障恢复 · XID 故障码告警 · 资源监控 · 温度/功率
节点禁用/启用 · 节点资源 · 节点状态 · 驱动版本 · 操作系统
NVIDIA · 昇腾 · 海光 · 昆仑芯 · 天数智芯 · 更多
技术深度
了解 Rise VAST 背后的核心技术选型与设计理念
用户态 GPU 虚拟化
Rise VAST 采用用户态虚拟化方案,相比内核态侵入性更低、安全性更高、跨平台兼容性更好。无需修改内核模块,零侵入实现算力隔离与显存管理。
阅读详解算力池化的真实价值
打破四个常见误区:算力够用不需要池化、GPU 数量够就行、异构卡不兼容、虚拟化必然有性能损失。了解池化如何将碎片化资源整合为统一算力服务。
阅读详解K8s 原生调度的局限
Kubernetes 原生调度器将 GPU 视为同质整数资源,无法理解拓扑、切分、显存隔离等 AI 场景需求。了解 Rise VAST 如何补齐这些关键能力。
阅读详解AI 云原生异构算力架构
多厂商芯片混合部署、多框架并行运行、多集群跨地域协同——云原生时代的异构算力环境管理需要系统性的架构设计,而非单点工具拼凑。
阅读详解芯片兼容认证
Rise VAST 已完成与以下国产 AI 芯片的适配认证,确保异构算力的稳定纳管与统一调度