跳到主要内容

Rise ModelX:训推一体的 AI 服务平台

算力即服务 · 管得清:训推一体,让 GPU 集群利用率从 30% 跃升至 70%

产品概述

Rise ModelX 面向的是 AI 应用团队——不想关心 GPU 在哪里、怎么调度,只想把模型快速训好、部署上线、按量计费。它基于 Rise VAST 的异构算力纳管与 vGPU 切分能力,借助 Rise CAMP 的智能调度,提供从数据处理、模型微调到推理服务的全链路 MaaS 能力,内置基于 Higress 的 AI 网关(路由、限流、MCP 协议转换)和资源与 Token 双维度计量,让 AI 算力像云服务一样可运营。
数据工程
多版本数据集
Data-Juicer 清洗
LLM 增强
训练与微调
LlamaFactory / Unsloth
SFT·DPO·PPO·GRPO
LoRA / QLoRA / Full
模型对比与导出
评测与仓库
Auto + LLM-as-Judge
ModelScope/HF 导入
量化 INT8/INT4
版本与实验管理
AI 网关
Higress 智能路由
虚拟 ModelName
协议转换 / MCP
批处理与缓存
推理服务
vLLM / SGLang / MindIE
CronScale + HPA
Playground / WebUI
GPU 资源回收
FinOps
GPU 时长计费 Token 维度计费 Top-N 用量分析 成本异常告警
Rise CAMP 算力调度 Rise VAST vGPU 引擎 异构芯片无感适配

核心特性

训推一体

训练与推理在同一平台统一管理,从数据处理、模型微调到推理部署的全流程打通。支持多机多卡分布式训练和断点续训,训练完成后一键发布为推理服务,无需跨平台迁移。

模型市场与一键部署

内置模型广场,支持从 ModelScope、HuggingFace 一键导入或本地路径接入。模型绑定部署模板后一键部署推理服务,集成 vLLM、vLLM Ascend、SGLang、MindIE 等推理引擎。

弹性伸缩与资源回收

定时扩缩容(CronScale)与指标弹性(HPA)双策略。三层资源回收(平台/租户/项目级),显存利用率低于阈值时自动回收空闲 GPU 重新投入资源池。

Playground 与 OpenWebUI

内置文本对话(流式 SSE)和图像生成 Playground,集成 OpenWebUI 提供 Web Chat 界面。支持多模型同时对比效果输出,缩短模型选型周期。

模型开发全流程

数据集多版本管理

支持文本、图像、音频等多模态数据集。提供版本控制、在线编辑(JSON/JSONL/CSV)、文件预览,清洗与增强产出自动创建新版本,确保训练数据可复现、可溯源。

数据清洗(Data-Juicer)

集成 Data-Juicer 引擎,支持文本清洗、过滤、去重、隐私保护、格式标准化等规则。三步创建:选数据集 → 配清洗规则 → 提交任务,清洗结果自动生成数据集新版本。

数据增强(LLM 驱动)

批量增强:配置 LLM endpoint 对数据集批量扩充,自动生成新版本。在线交互增强:实时预览增强效果,单条文本 1-20 倍增强,支持自定义 System Prompt。

模型微调(多框架多阶段)

支持 LlamaFactory、Unsloth、Axolotl 三大微调框架,覆盖 SFT、DPO、KTO、RM、PPO、GRPO 全部对齐阶段。LoRA / QLoRA / Full 三种微调方法,可视化超参配置。

模型评测(Auto + LLM-as-Judge)

Auto 模式:LlamaFactory 内置指标自动评测(MMLU、C-Eval、GSM8K)。LLM-as-Judge 模式:利用强模型对输出多维度打分(准确性、流畅度、安全性),适用于开放域场景。支持微调完成后自动触发评测。

模型对比与导出

微调完成后启动临时推理服务,A/B 对比微调前后效果。确认效果后一键 LoRA Merge 导出合并模型,模型训练产出自动归档,多版本对比与最佳模型标记。

产品优势

AI FinOps 成本治理

GPU 时长与 Token 双轨计费,Top-N 分析(按系统/模型/工作空间),时间线用量聚合,API-KEY 粒度统计,成本异常告警与优化建议。

灰度发布与版本管理

滚动更新、灰度发布与一键回滚。多版本推理服务并行运行,按流量比例逐步切换,确保模型升级零风险。

异构算力无感适配

屏蔽 NVIDIA、昇腾、海光等芯片差异,vLLM Ascend 与 MindIE 原生适配,推理引擎自动匹配异构硬件。

多租户资源隔离

Workspace / Project 两级隔离,模型、镜像、数据集按租户可见性管控,资源配额按团队和项目分配。

开发环境一键启动

预装 Jupyter、VSCode、CloudShell、SSH 四种开发环境,支持容器快照保存与恢复,TensorBoard 原生集成。

开箱即用

内置 DeepSeek、Qwen、Kimi 等主流模型镜像,Playground + OpenWebUI 即时体验,分钟级完成模型服务上线。

推理引擎与模型监控

集成主流推理引擎,提供从模型性能到资源消耗的全维度监控,支持模型版本管理与一键回滚

推理引擎集成

vLLM SGLang MindIE

一键部署推理服务,自动适配 NVIDIA / 昇腾等异构硬件,支持模型灰度发布与多版本并行运行。

模型性能指标

端到端时延 ms
首 Token 生成时间 (TTFT) ms
输入/输出 Token 吞吐量 tokens/s
请求/响应 Token 总量 count

资源消耗监控

实时追踪每个模型服务的算力使用率、显存占用率、CPU/内存消耗、网络 I/O 流量,精确到单个推理实例粒度。

模型版本管理

完整的模型版本生命周期:版本发布、升级记录、资源配置对比、一键回滚至任意历史版本,确保线上服务稳定可控。

AI 网关

统一 API 标准

实现 OpenAI 兼容 API。通过 WasmPlugin 适配多种推理引擎,McpBridge DNS 自动注册推理端点,支持 HTTP/HTTPS 双端口同时服务。

智能路由与故障转移

虚拟化 ModelName(切换模型渠道业务无感知)、多渠道负载比例与主备策略、按上下文长度/请求头/请求内容自定义路由。故障时自动切换至备用渠道,API 参数不变。

安全防护与 Key 管理

API Key 生成与管理、多 Key 多模型权限绑定、管理员全局管控。Token 鉴权、IP 黑白名单、PII 拦截、敏感词过滤,支持按时间计划/限频限次的访问策略。

协议转换与兼容

兼容 OpenAI 接口 + 语音/图像/视频非标接口。支持 Function Call、JSON Mode。非标模型接口透传与字段映射,MCP 协议原生转换,自定义出入参配置。

批处理与缓存

支持批处理接口与任务管理,可按时间计划进行闲时/夜间 GPU 调度。Prefill / Prefix 缓存参数配置,提升吞吐量、降低算力消耗。

全链路可观测

每条请求记录全链路日志(各节点输入输出、Token 数、延迟),支持流式内容与合并视图。API 链路状态监测,异常时自动报警。ai-statistics 插件采集用量统计。

AI Gateway 架构

OpenAI 兼容 · MCP 原生 · 多模型路由 · HTTP/HTTPS/WebSocket · 流式/非流式

Access Layer

AI Agents
Copilot · Agent
RAG Systems
检索增强生成
业务应用
API / SDK / MCP
批处理任务
闲时 · 夜间调度
Smart Routing 智能路由
按上下文长度/请求头/请求内容自定义路由 · 多渠道负载/主备/降级 · 故障自动切换业务无感知
⟨⟩
Protocol Translation 协议转换
兼容 OpenAI · 语音/图像/视频非标接口 · Function Call / JSON Mode · 透传与字段映射
📊
Observability 全链路可观测
每条请求全链路日志 · 流式内容与合并视图 · API 链路状态监测 · Prefill/Prefix 缓存优化
虚拟 ModelName
切换渠道业务无感
多渠道聚合
本地 + 云端组合
Key 管理
多 Key · 权限 · 限额
访问策略
时间计划 · 限频限次
HTTP/HTTPS
双端口同时服务
WebSocket
实时双向通信
批处理
任务管理 · 闲时调度
缓存优化
Prefill · Prefix

Plugin Extensions

API Key Auth
鉴权 · 全局管控
Rate Limiting
熔断限流
Auto Failover
故障切换 · 报警
Security
PII · 敏感词
Custom
自定义扩展

Model Layer

DeepSeek
V3 / R1
Qwen
通义千问 · 百炼
Kimi
Moonshot · 长上下文
MiniMax
语音 · 多模态
云厂商渠道
火山 · 硅基 · 智谱 · 讯飞
自有模型
企业私有化部署

应用场景

训推一体,降本增效

训练与推理在同一平台管理,模型训练完成后一键部署为推理服务,无需两套环境。微调完成自动触发评测,效果确认后 LoRA Merge 导出直接上线。

Agent 时代的 AI 服务底座

借助 AI 网关的 MCP 协议转换和智能路由能力,连接企业 ERP、CRM 等业务系统。虚拟化 ModelName 让模型渠道切换对业务无感知。

高并发推理服务

AI 网关 + CronScale 定时 + HPA 指标弹性伸缩,支撑面向 C 端的高并发流量场景。多渠道负载均衡与故障自动转移,确保低延迟、零中断。

垂直行业模型定制

基于行业数据进行 SFT 指令微调或 DPO/PPO 对齐训练,LlamaFactory + Unsloth + Axolotl 三框架可选。Data-Juicer 清洗 + LLM 增强数据,LLM-as-Judge 评测效果。

常见问题

01 Rise ModelX 的 AI 网关和 LiteLLM、Kong AI Gateway、Higress 有什么不同?
ModelX AI 网关基于 Higress 构建,但定位完全不同。LiteLLM / Kong AI Gateway 是独立网关,只解决「协议适配 + 路由」问题;ModelX AI 网关向下深度集成 Rise VAST 异构算力纳管Rise CAMP 智能调度,能同时治理 Token 流量 + GPU 算力,提供 双轨 FinOps(GPU 时长 + Token 双维度计量)、按部门成本归因、预算阈值熔断等企业级能力,是一个「算力即服务 + Token 即治理」的完整控制平面,而不是单一 API 网关。
02 ModelX 和 Rise VAST、Rise CAMP 是什么关系?
三层产品架构 VAST(资源管理)+ CAMP(智能调度)+ ModelX(模型服务)是从下到上的递进关系:VAST 解决「算力纳管和虚拟化」,CAMP 解决「任务调度」,ModelX 解决「模型服务化和 Token 治理」。
03 ModelX 支持哪些推理引擎?国产芯片兼容性如何?
原生集成 vLLM、vLLM Ascend、SGLang、MindIE 等主流推理引擎,并通过 WasmPlugin 机制持续扩展。芯片层面已完成 10+ 国产芯片兼容认证,包括华为昇腾 910B、寒武纪、海光 DCU、昆仑芯、沐曦、摩尔线程、天数智芯等,支持 NVIDIA + 国产芯片混合调度,业务侧通过统一的 OpenAI 兼容 API 调用,无需感知后端硬件差异。
04 AI 网关支持哪些模型协议?除了 OpenAI 还能接什么?
兼容 OpenAI Chat / Completions / Embeddings 标准接口,原生支持 Function Call、JSON Mode、流式 SSE。同时提供语音、图像、视频等非标接口的透传与字段映射,原生支持 MCP(Model Context Protocol)转换,可以零代码对接企业 ERP、CRM 等业务系统,让 Agent 框架直接调用企业内部能力。
05 Token 计量是按真实 tokenizer 还是网关估算?财务能信吗?
ModelX 网关使用真实模型的 tokenizer对每个请求做精确计量,输入 / 输出 / 缓存命中部分分别记录,结果与模型原厂账单对账一致。同时提供 GPU 时长 + Token 双轨计费,自建模型按 GPU 卡时计费,公网模型按 Token 计费,统一在 FinOps 看板呈现,支持按部门 / 项目 / API Key 多维度归因,可直接对接企业财务系统。
06 如果我的业务有内外网隔离要求,怎么管控哪些团队能访问公网模型?
AI 网关内置 访问域控制(ACL)能力,可以为每个 API Key 配置允许访问的模型渠道集合:核心交易、风控等敏感业务可限制为仅内网模型,非敏感任务可放开受控公网出向。所有跨域请求强制走网关审计日志,满足金融行业内外网隔离与合规要求。
07 训练完成的模型如何快速上线推理?支持灰度发布吗?
ModelX 是训推一体平台,微调任务完成后可一键 LoRA Merge 导出,并直接发布为推理服务,无需跨平台迁移。推理服务支持 滚动更新、灰度发布、一键回滚,多版本可并行运行,按流量比例逐步切换;配合 AI 网关的虚拟 ModelName能力,业务侧调用 `enterprise-large` 这样的虚拟名,后端模型切换完全无感。
08 支持私有化部署吗?是否需要联网授权?
完全支持纯私有化部署,所有组件在客户内网运行,不依赖任何外部联网授权,满足金融、政企、军工等强合规场景。提供裸金属、虚拟机、Kubernetes 三种部署形态,支持麒麟、统信等国产操作系统。