跳到主要内容

Rise Router:统一大模型 Token 入口

一个端点 · 按需分流 · 全链路统一治理 — 本地推理 + 外部渠道统一接入,Token 账单与策略一处可见

产品概述

Rise Router 是企业所有大模型 Token 流量的统一入口:业务侧统一 OpenAI 兼容端点,Router 内部按策略将请求分流到 Rise ModelX(本地 Rise VAST + Rise CAMP 纳管信创集群上运行的推理服务)或外部渠道(国产大模型、公有云 MaaS、聚合平台、国外模型、BYOC 等)。渠道聚合、Key 托管、内外 Token 账单、预算控制、合规审计在同一个治理面完成。

核心能力

统一 OpenAI 兼容入口

业务侧统一 OpenAI 兼容端点,屏蔽本地推理与外部渠道的协议差异,HTTP/HTTPS 双端口同时服务。

内外分流智能路由

支持多维度自动分流,覆盖国产大模型、公有云 MaaS、聚合平台,以及企业自建的 new-api、one-api、sub2api 等开源 OpenAI 兼容网关;可与企业数据分级、大模型围栏组件协同;虚拟 ModelName 业务无感切换,故障自动降级 + 多 Key / 多地域负载均衡。

API Key 与策略集中托管

上游厂商 Key 与 ModelX 内部凭证统一托管,租户 / 项目 / 用户多维授权,配套 Key 轮转、IP 白名单、限频限次等访问策略。

双轨 Token 计量(GPU + API)

本地 GPU 时长 + 外部 Token 计费并轨,按租户 / 项目 / 业务线 / API Key 多维归因,同一套 FinOps 看板。

预算控制与防失控

租户 / 业务线预算硬上限触发自动降级或阻断;成本异常告警、闲时调度、限频限次多层防护。

出站合规审计

全链路日志覆盖内外流量,含 PII 拦截、敏感词过滤、多模态出站审计;配合企业数据分级与大模型围栏策略,满足金融 / 央企合规要求。

Rise Router 架构

统一 LLM 入口 · 内外分流 · 渠道聚合 · Key 托管 · 双轨计量 · 合规审计

Access Layer

经 AI 网关分流

AI Agents
Copilot · Autonomous Agent
RAG Systems
检索增强生成
业务应用
API / SDK / MCP
批处理任务
闲时 · 夜间调度
Unified Entry 统一 LLM 入口
OpenAI 兼容端点 · 多引擎/多渠道协议适配 · 本地 ModelX + 外部受管渠道 一处接入 · McpBridge 自动注册
¥
Smart Routing 智能分流
支持按多维度自动分流,可与企业数据分级、大模型围栏组件协同;虚拟 ModelName 业务无感切换,故障自动降级
Governance 治理面
GPU + Token 双轨计量 · 多维归因 · 预算硬上限 · 合规审计 · PII + 敏感词过滤 · Key + 凭证集中托管
虚拟 ModelName
路径切换无感
内外分流
敏感留本地,外放按需
Key + 凭证托管
上游 + 内部统一
定价路由
按成本选渠道
多模态入口
文本 · 图 · 音 · 视
租户归因
项目 / 业务线
预算控制
硬上限降级
限频限次
访问策略

Plugin Extensions

Health Check
健康检查 · 超时控制
Auto Failover
自动降级 · 备选切换
Rate Limiting
熔断限流 · QPS/RPM
Security
PII · 敏感词过滤
Custom Plugin
自定义扩展

Routing Targets

路由目标

▸ Internal 内部推理

Rise ModelX
vLLM / SGLang / MindIE

▸ External 外部渠道

国产大模型
XC-LLM / 智谱 / 讯飞 / Kimi
公有云 MaaS
百炼 / 千帆 / TI / MA
模型聚合平台
硅基 / 火山方舟 等
国外模型
OpenAI / Anthropic / Google
企业自选
客户指定上游

产品价值

一个端点收敛所有 LLM 集成

业务代码不必为本地推理和外部渠道分别对接两套 API、两套 Key、两套计量。集成复杂度从 N 条线路降到 1 条,上线速度提高,治理失控的表面积缩小。

内外 Token 账单一口径

Rise ModelX 的 GPU 时长计费与外部 API Token 计费在同一套 FinOps 看板呈现,按租户/项目/业务线多维归因。财务无需再区分内外,预算硬上限和成本异常告警对所有 LLM 流量生效。

按场景弹性分流

本地稳态与低延迟保障的流量在 Rise ModelX 推理;峰值或需要外部模型能力的流量通过 Router 路由到外部受管渠道;敏感度判定与分级策略可与企业数据分级 / 大模型围栏组件协同编排,本地满负荷时 Router 自动承接溢出,避免反复扩建硬件。

Router 可路由的通道类型

通道类型 典型代表 适用场景
本地推理(Rise ModelX) vLLM / SGLang / MindIE 等 稳态流量、低延迟保障;数据需在企业信创 GPU 内推理的业务
国产大模型 DeepSeek / Qwen / XC-LLM / 智谱 / 讯飞 / Kimi / MiniMax 合规友好的首选,国产主流厂商覆盖广泛
公有云 MaaS 百炼 / 千帆 / TI / MA 国内云厂商的托管模型服务,商务合规路径清晰
模型聚合平台 硅基流动 / 火山方舟 多厂商聚合入口,快速试用与切换
企业自建开源 LLM 网关 new-api / one-api / sub2api 已部署开源聚合网关的企业平滑接入,复用既有 Key 与渠道配置
国外模型 OpenAI / Anthropic / Google 部分业务确有需要时按需接入
企业自选 BYOC 客户指定上游 将客户已有的第三方 API Key 托管进 Router 统一治理

应用场景

按敏感度与场景一体化路由

Router 与企业数据分级、大模型围栏组件协同,敏感请求路由到本地 Rise ModelX 推理,其他流量按成本 / 能力受控外放;本地满负荷自动溢出,故障自动降级;出站全程留痕,满足金融 / 证券等高合规场景的监管审计要求。

内外 Token 账单统一归口

本地 GPU 时长 + 外部 Token 计费在同一套 FinOps 看板,按租户 / 项目 / 业务线多维归因,月度账单自动出,财务无需区分内外口径。

Agent 统一调用大模型能力

Agent / Copilot / RAG 通过 Router 调用本地与外部模型,MCP / Function Call / JSON Mode / 流式 SSE 全兼容;限频限次 + 预算硬上限防失控;多模态全覆盖。

多渠道灰度与模型择优

同一业务挂多家上游渠道,按流量比例灰度切换,效果指标与 Token 成本同台回收;支撑国产化迁移期新老双写对比,业务基于线上真实数据做模型选型。

接入流程

1

注册推理后端

本地 Rise ModelX 自动发现;外部渠道上传 API Key、配限速与健康检查。

2

配置路由策略

设置虚拟 ModelName 与分流规则(敏感度/成本/能力),支持灰度与降级。

3

绑定租户与预算

按租户/项目设 Token 预算上限、合规标签与访问策略。

4

统一 API 调用与账单

业务经统一端点调用,Router 自动路由、计量、审计并出双轨账单。

常见问题

01 Rise Router 和 Rise ModelX 是什么关系?为什么不合并成一个产品?
Rise Router 是企业所有大模型 Token 流量的统一入口 + 治理面;Rise ModelX 是 Router 背后的推理后端之一(内部算力 · 训推一体)。业务侧只对 Router 的 OpenAI 兼容端点集成;Router 内部按策略把请求分流到本地 ModelX 或外部受管渠道。两者分开的工程逻辑是:ModelX 管算力(GPU 池化、调度、训练、推理引擎),面向 AI 应用团队与算力运维;Router 管流量(统一入口、路由策略、Key 托管、双轨 Token 账单、合规审计),面向业务接入方、财务、合规。关注点不同、演进节奏不同,分成两套独立产品但在客户侧组合交付。
02 敏感数据如何保证不走外部渠道?
通过 基于租户 / API Key / 业务标签的访问控制策略。每个租户或 API Key 可绑定 允许访问的渠道白名单:涉密、风控、核心交易等敏感业务限制在 本地 Rise ModelX(信创 GPU),非涉密业务放开受控外部出向。所有出站请求强制经 Router 审计日志,配合 PII 检测、敏感词过滤、时间计划与限频策略。更进一步,Router 还支持 内容感知路由(可结合客户业务实际情况定制化共研):按请求内容自动判断应走哪类通道,为敏感数据提供额外的防御层。Router 的定位是治理已明确走外部的业务流量;敏感业务就该留在本地算力栈
03 和 LiteLLM / OneAPI / Portkey 等开源代理网关相比有什么差异?
LiteLLM / OneAPI / Portkey 是 协议代理层,解决多上游协议适配问题。Rise Router 在此之上叠加 企业级 Token 治理:按租户 / 项目 / 业务线的 Token 账单与预算硬上限、多渠道成本对比与智能路由、API Key 集中托管与轮转吊销、完整出站审计、PII / 敏感词拦截。最大的差异不是网关内核层(开源的都差不多),而在于 Rise Router 同时覆盖企业内部 GPU 算力(通过 Rise ModelX)和外部渠道,在一套治理面做 GPU 时长 + Token 双轨计费、按场景内外分流、统一审计。Xinference / vLLM / SGLang 等是 推理引擎,属于 ModelX 管理的本地后端之一,不是 Router 同一层级。
04 Router 可路由到哪些通道?
覆盖 6 类通道:本地推理(Rise ModelX 管理的 vLLM / SGLang / MindIE 实例)、国产大模型(XC-LLM / 智谱 / 讯飞 / Kimi)、公有云 MaaS(百炼 / 千帆 / TI / MA)、模型聚合平台(硅基流动 / 火山方舟)、国外模型(OpenAI / Anthropic / Google,部分业务确有需要时按需接入)、企业自选 BYOC(客户指定上游)。通道覆盖广泛,全部经统一 OpenAI 兼容接口访问,业务切换路径无需改代码。
05 API Key 托管的安全机制是什么?
上游厂商 API Key 与 ModelX 内部凭证集中托管在 Router 治理面,业务代码不再直接持有任何 LLM 凭证 —— 消除 Key 散落和泄漏风险。支持 Key 轮转(定期更换上游凭证,业务无感)、Key 吊销(单个 Key 立即失效)、按租户 / 项目授权(不同团队只能看到自己授权的渠道和预算)、访问策略(时间计划 / IP 白名单 / 限频限次)。完整出站审计日志满足金融和国央企的合规要求。
06 Token 计量的准确性如何?能对接财务系统吗?
使用 真实上游模型的 tokenizer 精确计量每条请求的 prompt / completion token,而非网关估算。多维度归因(租户 / 项目 / 业务线 / API Key),时间线聚合,Top-N 用量,月度账单自动生成。同一套 FinOps 看板呈现 本地 GPU 时长 + 外部 Token 合并视图(这是 Router 作为统一入口的核心能力之一),按部门直接对接企业财务系统。
07 预算超限会发生什么?会不会导致业务中断?
预算行为 可配置:按租户或业务线设置预算硬上限,触达阈值可选 自动降级(路由到更便宜的渠道继续服务)、告警但不阻断(告警但流量照常)或 硬阻断(拒绝新请求)。除预算外还有 成本异常告警(用量突增)、时间计划(闲时 / 夜间调度)、限频限次 多层防护 —— 避免单租户或失控 Agent 把预算跑穿。
08 是否支持 Agent / Function Call / 多模态场景?
OpenAI 兼容的 Chat / Completions / Embeddings / Function Call / JSON Mode / 流式 SSE 全部支持,Agent 框架切换上游模型无需改代码。多模态模型同样覆盖:文本、图像、音频、视频类上游模型都通过 Router 统一接入,Agent 可直接调用图像理解、语音识别、视频生成等能力,并纳入同一套 Token 计量、预算控制与合规审计。虚拟 ModelName 让 Router 按策略(成本 / 延迟 / 可用性)在多渠道自动路由,配合 限频限次预算硬上限,防止自主 Agent 在外部渠道失控消耗 —— Agent 的 Token 消耗速率远高于人类触发,预算控制是外部渠道治理的刚需。