Rise ModelX:训推一体的 AI 服务平台
算力即服务 · 管得清:训推一体,让 GPU 集群利用率从 30% 跃升至 70%
核心特性
训推一体
训练与推理在同一平台统一管理,从数据处理、模型微调到推理部署的全流程打通。支持多机多卡分布式训练和断点续训,训练完成后一键发布为推理服务,无需跨平台迁移。
模型市场与一键部署
内置模型广场,支持从 ModelScope、HuggingFace 一键导入或本地路径接入。模型绑定部署模板后一键部署推理服务,集成 vLLM、vLLM Ascend、SGLang、MindIE 等推理引擎。
弹性伸缩与资源回收
定时扩缩容(CronScale)与指标弹性(HPA)双策略。三层资源回收(平台/租户/项目级),显存利用率低于阈值时自动回收空闲 GPU 重新投入资源池。
Playground 与 OpenWebUI
内置文本对话(流式 SSE)和图像生成 Playground,集成 OpenWebUI 提供 Web Chat 界面。支持多模型同时对比效果输出,缩短模型选型周期。
模型开发全流程
数据集多版本管理
支持文本、图像、音频等多模态数据集。提供版本控制、在线编辑(JSON/JSONL/CSV)、文件预览,清洗与增强产出自动创建新版本,确保训练数据可复现、可溯源。
数据清洗(Data-Juicer)
集成 Data-Juicer 引擎,支持文本清洗、过滤、去重、隐私保护、格式标准化等规则。三步创建:选数据集 → 配清洗规则 → 提交任务,清洗结果自动生成数据集新版本。
数据增强(LLM 驱动)
批量增强:配置 LLM endpoint 对数据集批量扩充,自动生成新版本。在线交互增强:实时预览增强效果,单条文本 1-20 倍增强,支持自定义 System Prompt。
模型微调(多框架多阶段)
支持 LlamaFactory、Unsloth、Axolotl 三大微调框架,覆盖 SFT、DPO、KTO、RM、PPO、GRPO 全部对齐阶段。LoRA / QLoRA / Full 三种微调方法,可视化超参配置。
模型评测(Auto + LLM-as-Judge)
Auto 模式:LlamaFactory 内置指标自动评测(MMLU、C-Eval、GSM8K)。LLM-as-Judge 模式:利用强模型对输出多维度打分(准确性、流畅度、安全性),适用于开放域场景。支持微调完成后自动触发评测。
模型对比与导出
微调完成后启动临时推理服务,A/B 对比微调前后效果。确认效果后一键 LoRA Merge 导出合并模型,模型训练产出自动归档,多版本对比与最佳模型标记。
产品优势
AI FinOps 成本治理
GPU 时长与 Token 双轨计费,Top-N 分析(按系统/模型/工作空间),时间线用量聚合,API-KEY 粒度统计,成本异常告警与优化建议。
灰度发布与版本管理
滚动更新、灰度发布与一键回滚。多版本推理服务并行运行,按流量比例逐步切换,确保模型升级零风险。
异构算力无感适配
屏蔽 NVIDIA、昇腾、海光等芯片差异,vLLM Ascend 与 MindIE 原生适配,推理引擎自动匹配异构硬件。
多租户资源隔离
Workspace / Project 两级隔离,模型、镜像、数据集按租户可见性管控,资源配额按团队和项目分配。
开发环境一键启动
预装 Jupyter、VSCode、CloudShell、SSH 四种开发环境,支持容器快照保存与恢复,TensorBoard 原生集成。
开箱即用
内置 DeepSeek、Qwen、Kimi 等主流模型镜像,Playground + OpenWebUI 即时体验,分钟级完成模型服务上线。
推理引擎与模型监控
集成主流推理引擎,提供从模型性能到资源消耗的全维度监控,支持模型版本管理与一键回滚
推理引擎集成
一键部署推理服务,自动适配 NVIDIA / 昇腾等异构硬件,支持模型灰度发布与多版本并行运行。
模型性能指标
资源消耗监控
实时追踪每个模型服务的算力使用率、显存占用率、CPU/内存消耗、网络 I/O 流量,精确到单个推理实例粒度。
模型版本管理
完整的模型版本生命周期:版本发布、升级记录、资源配置对比、一键回滚至任意历史版本,确保线上服务稳定可控。
AI 网关
统一 API 标准
实现 OpenAI 兼容 API。通过 WasmPlugin 适配多种推理引擎,McpBridge DNS 自动注册推理端点,支持 HTTP/HTTPS 双端口同时服务。
智能路由与故障转移
虚拟化 ModelName(切换模型渠道业务无感知)、多渠道负载比例与主备策略、按上下文长度/请求头/请求内容自定义路由。故障时自动切换至备用渠道,API 参数不变。
安全防护与 Key 管理
API Key 生成与管理、多 Key 多模型权限绑定、管理员全局管控。Token 鉴权、IP 黑白名单、PII 拦截、敏感词过滤,支持按时间计划/限频限次的访问策略。
协议转换与兼容
兼容 OpenAI 接口 + 语音/图像/视频非标接口。支持 Function Call、JSON Mode。非标模型接口透传与字段映射,MCP 协议原生转换,自定义出入参配置。
批处理与缓存
支持批处理接口与任务管理,可按时间计划进行闲时/夜间 GPU 调度。Prefill / Prefix 缓存参数配置,提升吞吐量、降低算力消耗。
全链路可观测
每条请求记录全链路日志(各节点输入输出、Token 数、延迟),支持流式内容与合并视图。API 链路状态监测,异常时自动报警。ai-statistics 插件采集用量统计。
AI Gateway 架构
OpenAI 兼容 · MCP 原生 · 多模型路由 · HTTP/HTTPS/WebSocket · 流式/非流式
Access Layer
Plugin Extensions
Model Layer
应用场景
训推一体,降本增效
训练与推理在同一平台管理,模型训练完成后一键部署为推理服务,无需两套环境。微调完成自动触发评测,效果确认后 LoRA Merge 导出直接上线。
Agent 时代的 AI 服务底座
借助 AI 网关的 MCP 协议转换和智能路由能力,连接企业 ERP、CRM 等业务系统。虚拟化 ModelName 让模型渠道切换对业务无感知。
高并发推理服务
AI 网关 + CronScale 定时 + HPA 指标弹性伸缩,支撑面向 C 端的高并发流量场景。多渠道负载均衡与故障自动转移,确保低延迟、零中断。
垂直行业模型定制
基于行业数据进行 SFT 指令微调或 DPO/PPO 对齐训练,LlamaFactory + Unsloth + Axolotl 三框架可选。Data-Juicer 清洗 + LLM 增强数据,LLM-as-Judge 评测效果。