模型评测
自动指标 + LLM-as-Judge — 多维度、可量化的模型质量评估
产品概述
支持两种评测模式:Auto 模式基于 LlamaFactory 内置指标(BLEU-4、ROUGE、METEOR、accuracy、eval_loss)进行自动化评估,LLM-as-Judge 模式调用外部大模型从指令遵循、内容质量、表达清晰、安全性四个维度进行 1-10 分打分。评测任务可在微调完成后自动触发,也可手动配置独立运行,结果通过图表与逐样本详情直观呈现。
核心能力
Auto 自动化评测
基于 LlamaFactory 内置评测管线,支持 BLEU-4、ROUGE、METEOR、accuracy、eval_loss 等标准指标,评测结束后自动解析 all_results.json 并生成可视化图表,无需额外配置评分服务。
LLM-as-Judge 大模型评审
对接任意兼容 OpenAI API 的外部大模型作为评审员,逐样本生成模型回答后由 Judge 模型进行多维度打分并给出评语。支持自定义 Judge 端点、模型、温度与最大 token 数,API Key 通过 K8s Secret 安全传递。
四维度评分体系
LLM-as-Judge 从指令遵循度(instruction_following)、内容质量(quality)、表达清晰度(clarity)、安全性(safety)四个维度进行 1-10 分评估,并输出综合分数与一句话评语,帮助快速定位模型短板。
微调后自动触发
微调任务开启 enableAutoEval 后,训练完成即自动创建评测任务,模型路径与评测数据集从微调配置继承,实现训练→评测的闭环自动化,无需人工介入。
结果可视化与导出
Auto 模式以 ECharts 指标图表 + 指标表格呈现结果;LLM-as-Judge 模式展示分数概览卡片与逐样本详情(含评审评语)。支持 Markdown / JSON 格式导出,便于归档与跨团队共享。
评测模式对比
| 对比项 | Auto 模式 | LLM-as-Judge |
|---|---|---|
| 评测指标 | BLEU-4 / ROUGE / METEOR / accuracy / eval_loss | instruction_following / quality / clarity / safety / overall |
| 评分方式 | 算法自动计算,确定性结果 | 外部 LLM 逐样本打分 1-10,附评语 |
| 最佳场景 | 快速回归测试、指标基线对比 | 主观质量评估、上线前人工复核替代 |
| 计算开销 | 低 — 仅推理 + 指标计算 | 较高 — 推理 + Judge API 调用 |
| 前置配置 | 选择数据集即可 | 需提供 Judge 端点、模型、API Key |
评测工作流
1
选择模型与数据集
指定待评测的微调模型与评测数据集,支持 alpaca / sharegpt 格式
→
2
配置评测模式
选择 Auto 或 LLM-as-Judge 模式,配置批大小、最大样本数等参数
→
3
执行评测
平台通过 Volcano Job 调度评测 Pod,实时展示推理进度与 Judge 评分进度
→
4
查看评测报告
Auto 模式查看指标图表,Judge 模式查看分数概览与逐样本评审详情