跳到主要内容

Rise VAST:AI 算力管理平台

聚得全 · 算得明:统一纳管异构算力,全链路可观测,让算力资产清清楚楚

产品概述

Rise VAST 是整个睿思智联产品体系的资源管理底座,基于 CNCF 沙箱项目 HAMi 打造的企业版。它为上层的 Rise CAMP(调度)、Rise ModelX(模型服务)和 Rise Edge(边缘智算)提供统一的异构算力纳管与可观测能力。无论是 NVIDIA、昇腾还是海光,无论在数据中心还是边缘节点,VAST 让所有算力资产像水电一样透明可管。

已适配芯片

NVIDIA
ascend
hygon
cambricon
iluvatar
metax
mthread
kunlunxin
enflame
PPU
更多国产厂商持续接入中...

聚得全:统一纳管异构算力

HAMi 开源版基础上,Rise VAST 通过统一调度框架打破多厂商算力割裂,降低各厂商接入复杂度,支持多集群统一管理,实现 6 个统一:统一资源纳管、统一算力调度、统一任务管控、统一服务部署、统一监控运维、统一计量运营。
睿思智联第四范式达成战略合作,双方携手推出企业级 AI 算力池化平台:Rise VAST(HAMi 企业版),在 AI 算力资源管理、模型训练优化等方面展开深度合作。

-> 查看 HAMi 企业版签约仪式

多集群多租户

跨地域、跨架构(x86/c86/ARM)的多 K8s 集群统一管理,共享池与独享池灵活组合

多厂商统一框架

NVIDIA、昇腾、海光、寒武纪、天数智芯、昆仑芯、燧原、沐曦、摩尔线程等 10+ 厂商一套框架纳管

云原生零侵入架构

通过 Kubernetes Device Plugin 机制,无感实现 GPU 虚拟化与隔离,无需修改应用代码,实现算力限制与显存隔离,兼容性好,对业务透明

算力池化

支持共享算力池和专属算力池,按租户和项目灵活分配配额,资源按需申请、使用和释放

边缘节点 vGPU

支持边缘节点的 vGPU 纳管,同时支持 CAMP 和 EDGE 的云原生化改造,支持独立部署

多协议接入

对外提供 Web UI、REST API 和 MCP 协议三种接入方式,封装底层复杂异构环境

多集群多租户统一管理

跨地域、跨架构的异构 GPU 集群统一纳管,通过局域网通信实现集群间资源协同,6 个统一覆盖全链路

多数据中心

北京、内蒙古等多地域数据中心统一管理,100G 带宽互联

多架构混合

x86 / c86 / ARM 架构混合部署管理,含边缘节点 vGPU 纳管

共享 + 独享

共享算力池与专属算力池灵活组合,按租户和项目分配配额

统一资源纳管 统一算力调度 统一任务管控 统一服务部署 统一监控运维 统一计量运营

算得明:全链路可观测与智能运维

全链路可观测

从 GPU 设备层到 K8s 任务层、从物理资源到租户配额的「显微镜级」观测。采集每张 GPU 卡的 SM 算力时间片占比、显存分时占用率及板间通信流量,自动构建 Pod-GPU 卡-计算单元三级映射,秒级定位算力消耗。

国产卡动态切分

突破国产芯片原厂设备插件的固定切分规格限制,实现智能动态分配、按需切分、无需重启。配置管理从复杂手动操作升级为一键部署,资源利用率从 30-50% 提升至 80-90%。

国产卡显存隔离与对齐

针对昇腾 910B 和 910C 系列的 AI Core 与显存切分组合,提供严格的显存边界检查,防止越界。用户请求自动对齐到有效规格,确保不同容器间资源隔离,实时监控显存使用。

平台级健康全景

按厂商、架构、GPU 资源池维度展示利用率水位、碎片率、故障卡分布,一张大盘掌握全局算力健康状态。

故障自动隔离

XID 故障码告警,当卡出现故障或资源使用达到阈值时,触发 P0 级告警并自动隔离故障卡,防止故障扩散影响业务。

企业级告警平台

6 步闭环:指标采集 → 规则引擎 → 告警生成 → 降噪抑制 → 分级推送 → 处置复盘。支持邮件、短信、钉钉、企微等多渠道推送,值班排班与告警推送联动。

全链路观测:节点 → 卡 → 任务 → 模型

从 GPU 设备层到 K8s 任务层、从物理资源到租户配额的全链路透视,为异构 GPU 集群提供"显微镜级"观测能力

模型维度

端到端时延 · TTFT · Token 吞吐 · 响应/请求 · 资源/状态

任务维度

任务驱逐 · 算力/显存监测 · 任务日志 · 任务状态 · 设备互联信息

显卡维度

显卡禁用/启用 · 故障恢复 · XID 故障码告警 · 资源监控 · 温度/功率

节点维度

节点禁用/启用 · 节点资源 · 节点状态 · 驱动版本 · 操作系统

指标收集

NVIDIA · 昇腾 · 海光 · 昆仑芯 · 天数智芯 · 更多

常见问题

01 Rise VAST 和 HAMi 开源版是什么关系?我直接用开源版可以吗?
Rise VAST 是基于 HAMi 开源版构建的企业版,睿思智联是 HAMi(CNCF Sandbox 项目)的核心贡献者之一。开源版提供基础的 vGPU 切分与共享调度能力,适合做技术验证和小规模实验。VAST 企业版在此基础上增强了:多种国产算力卡的虚拟化与算力超分、生产级高可用、企业级监控告警闭环、国产芯片深度适配(含 Ascend / Cambricon / DCU 等 10+ 厂商认证)、多租户配额管控、与 Rise CAMP 调度层的深度集成、原厂 SLA 与升级路径。生产环境建议使用 VAST 企业版。
02 vGPU 切分能做到多细?精度如何?
根据不同的卡的技术特性有不同的切分颗粒度。对于 Nvidia GPU 和与 CUDA 兼容性比较好的国产 GPU,如阿里 PPU,采用用户态虚拟化,通过 CUDA API 拦截实现严格的显存与算力隔离,Rise VAST 支持显存按 MB 级、算力按 1% 级细粒度切分。对于其它国产算力卡,根据厂商的技术接口,通常支持按照比例切分,如 1/2,1/4,1/8 等,具体请咨询睿思智算。配合算力超分(oversubscription)能力,整体 GPU 利用率可从行业平均 30% 提升至 70%+。
03 支持哪些 GPU 厂商?国产芯片的支持深度如何?
已完成 10+ 国产芯片兼容认证NVIDIA(全系列)、昇腾寒武纪海光昆仑芯沐曦摩尔线程天数智芯平头哥等。国产卡上不仅支持基本调度,还突破原厂限制实现动态切分与共享——这是 VAST 对国产 GPU 虚拟化做的核心增强之一,也是 VAST 与一般 K8s Device Plugin 的核心差异。
04 已经在用 Kubernetes 原生 NVIDIA Device Plugin,为什么还需要 VAST?
NVIDIA Device Plugin 只能做到整卡分配——一个 Pod 占用一张完整的 GPU,无法共享。对于推理服务、Notebook、小模型训练这类"用不满一张卡"的场景,整卡分配会造成大量资源浪费(行业平均利用率约 30%)。VAST 通过 vGPU 虚拟化让多个 Pod 共享一张物理卡,并提供严格的显存隔离与算力配额,把利用率拉到 70%+。同时 VAST 完全兼容 K8s Device Plugin 接口,可无缝替换。
05 可以在已有 Kubernetes 集群上叠加部署吗?需要重建集群吗?
无需重建集群。VAST 以 Kubernetes 原生组件形式部署(Helm Chart 一键安装),通过 DaemonSet 注入到 GPU 节点,注册自定义 Device Plugin。对已有工作负载零侵入,原有的 CPU 任务、整卡 GPU 任务可继续运行,新提交的 vGPU 任务会自动走 VAST 的虚拟化层。支持 Kubernetes 1.20+,已在多家客户的生产集群完成滚动升级。
06 多租户场景下,如何保证 GPU 资源的公平分配和隔离?
VAST 提供三级资源隔离:物理隔离(按节点/GPU 亲和性)、虚拟化隔离(vGPU 显存与算力硬隔离)、配额隔离(按租户 / 项目 / 用户的资源配额)。配合 Rise CAMP 调度层可实现优先级抢占、公平队列、租户配额超分回收等高级策略,避免单个租户独占资源。所有调度决策都有审计日志,支持事后归因。
07 是否支持纯国产化全栈部署?兼容麒麟 / 统信操作系统吗?
完全支持信创全栈:操作系统层兼容麒麟 V10、统信 UOS、欧拉 OS、龙蜥 OS等国产发行版;硬件层支持鲲鹏、海光、飞腾等国产 CPU;GPU 层支持上述全部国产加速卡;Kubernetes 层兼容主流国产 K8s 发行版。已在多个金融、政企、军工客户完成等保 2.0 三级环境的全国产化生产部署。
08 部署 VAST 后,原有的监控、告警、CMDB 系统怎么对接?
VAST 原生暴露 Prometheus 指标(GPU 利用率、显存、温度、Pod 级 vGPU 用量等),可直接对接 Grafana / 阿里云 ARMS / 企业自建监控平台。告警支持 Webhook、邮件、企业微信、钉钉等通道,可对接已有的告警平台(PagerDuty、OneAlert 等)。CMDB 集成通过 RESTful API 实现,已有客户对接 ServiceNow、自研 CMDB 等系统。