模型微调
3 大框架 × 7 种训练阶段 × 3 种微调方法 — 企业级 LLM 对齐与定制
产品概述
核心能力
三大微调框架
内置 LlamaFactory、Unsloth、Axolotl 三大主流微调框架,统一接口提交任务。框架通过插件化注册机制接入,自动生成对应的训练命令与配置文件,用户无需关心底层差异。
七种训练阶段
覆盖 SFT(监督微调)、DPO(直接偏好优化)、KTO、RM(奖励模型)、PPO(近端策略优化)、GRPO 及 PT(预训练续训)七种训练阶段,满足从指令跟随到人类偏好对齐的全链路需求。
三种微调方法
支持 LoRA(低秩适配)、QLoRA(量化低秩适配)、Full(全参数微调)三种方法。LoRA/QLoRA 按方法自动设置默认学习率(1e-4 / 2e-4),Full 微调默认 5e-5,降低用户调参门槛。
可视化超参数配置
提供 20+ 超参数的图形化配置面板,涵盖 epochs、batchSize、gradientAccumulationSteps、cutoffLen、warmupRatio、LoRA rank/alpha/dropout 等,按微调方法与训练阶段动态显示相关参数。
自动评测触发
创建任务时开启 enableAutoEval 开关并指定评测数据集,训练完成后平台自动触发模型评测,无需人工介入。评测数据集与训练数据集重叠时前端自动告警,避免数据泄漏。
模型对比与合并导出
训练完成后可启动临时推理服务,并行加载基础模型与微调模型进行 Side-by-side 流式对话对比。确认效果后支持 LoRA Merge 合并导出,可选 None / INT8 / INT4 量化,TTL 倒计时自动回收推理资源。
微调方法 × 训练阶段支持矩阵
| 训练阶段 | LoRA | QLoRA | Full |
|---|---|---|---|
| SFT | ✓ | ✓ | ✓ |
| DPO | ✓ | ✓ | ✓ |
| KTO | ✓ | ✓ | ✓ |
| RM | ✓ | ✓ | ✓ |
| PPO | ✓ | ✓ | ✓ |
| GRPO | ✓ | ✓ | ✓ |
微调工作流
选择基础模型
从模型仓库选择待微调的基础模型,指定模型存储路径
选择框架与阶段
选定微调框架(LlamaFactory/Unsloth/Axolotl)、训练阶段(SFT/DPO/KTO 等)与微调方法(LoRA/QLoRA/Full)
配置超参数
可视化配置 20+ 训练超参数,平台根据方法自动填充推荐默认值
训练与监控
提交任务后实时追踪 loss/learningRate/gradNorm 曲线,自动识别数据集下载、模型加载等启动阶段
对比与导出
A/B 对比微调前后效果,一键 LoRA Merge 合并导出模型,可选 INT8/INT4 量化