跳到主要内容

模型微调

3 大框架 × 7 种训练阶段 × 3 种微调方法 — 企业级 LLM 对齐与定制

产品概述

基于 LlamaFactory / Unsloth / Axolotl 框架的企业级大模型微调平台,覆盖 SFT、DPO、KTO、RM、PPO、GRPO 等七大训练阶段,支持 LoRA、QLoRA、Full 三种微调方法。提供 20+ 可视化超参数配置、训练完成后自动评测、双模型 A/B 对比及 LoRA Merge 量化导出,实现从数据到对齐模型的端到端闭环。

核心能力

三大微调框架

内置 LlamaFactory、Unsloth、Axolotl 三大主流微调框架,统一接口提交任务。框架通过插件化注册机制接入,自动生成对应的训练命令与配置文件,用户无需关心底层差异。

七种训练阶段

覆盖 SFT(监督微调)、DPO(直接偏好优化)、KTO、RM(奖励模型)、PPO(近端策略优化)、GRPO 及 PT(预训练续训)七种训练阶段,满足从指令跟随到人类偏好对齐的全链路需求。

三种微调方法

支持 LoRA(低秩适配)、QLoRA(量化低秩适配)、Full(全参数微调)三种方法。LoRA/QLoRA 按方法自动设置默认学习率(1e-4 / 2e-4),Full 微调默认 5e-5,降低用户调参门槛。

可视化超参数配置

提供 20+ 超参数的图形化配置面板,涵盖 epochs、batchSize、gradientAccumulationSteps、cutoffLen、warmupRatio、LoRA rank/alpha/dropout 等,按微调方法与训练阶段动态显示相关参数。

自动评测触发

创建任务时开启 enableAutoEval 开关并指定评测数据集,训练完成后平台自动触发模型评测,无需人工介入。评测数据集与训练数据集重叠时前端自动告警,避免数据泄漏。

模型对比与合并导出

训练完成后可启动临时推理服务,并行加载基础模型与微调模型进行 Side-by-side 流式对话对比。确认效果后支持 LoRA Merge 合并导出,可选 None / INT8 / INT4 量化,TTL 倒计时自动回收推理资源。

微调方法 × 训练阶段支持矩阵

训练阶段 LoRA QLoRA Full
SFT
DPO
KTO
RM
PPO
GRPO

微调工作流

1

选择基础模型

从模型仓库选择待微调的基础模型,指定模型存储路径

2

选择框架与阶段

选定微调框架(LlamaFactory/Unsloth/Axolotl)、训练阶段(SFT/DPO/KTO 等)与微调方法(LoRA/QLoRA/Full)

3

配置超参数

可视化配置 20+ 训练超参数,平台根据方法自动填充推荐默认值

4

训练与监控

提交任务后实时追踪 loss/learningRate/gradNorm 曲线,自动识别数据集下载、模型加载等启动阶段

5

对比与导出

A/B 对比微调前后效果,一键 LoRA Merge 合并导出模型,可选 INT8/INT4 量化

返回 Rise ModelX