跳到主要内容

模型评测

自动指标 + LLM-as-Judge — 多维度、可量化的模型质量评估

产品概述

支持两种评测模式:Auto 模式基于 LlamaFactory 内置指标(BLEU-4、ROUGE、METEOR、accuracy、eval_loss)进行自动化评估,LLM-as-Judge 模式调用外部大模型从指令遵循、内容质量、表达清晰、安全性四个维度进行 1-10 分打分。评测任务可在微调完成后自动触发,也可手动配置独立运行,结果通过图表与逐样本详情直观呈现。

核心能力

Auto 自动化评测

基于 LlamaFactory 内置评测管线,支持 BLEU-4、ROUGE、METEOR、accuracy、eval_loss 等标准指标,评测结束后自动解析 all_results.json 并生成可视化图表,无需额外配置评分服务。

LLM-as-Judge 大模型评审

对接任意兼容 OpenAI API 的外部大模型作为评审员,逐样本生成模型回答后由 Judge 模型进行多维度打分并给出评语。支持自定义 Judge 端点、模型、温度与最大 token 数,API Key 通过 K8s Secret 安全传递。

四维度评分体系

LLM-as-Judge 从指令遵循度(instruction_following)、内容质量(quality)、表达清晰度(clarity)、安全性(safety)四个维度进行 1-10 分评估,并输出综合分数与一句话评语,帮助快速定位模型短板。

微调后自动触发

微调任务开启 enableAutoEval 后,训练完成即自动创建评测任务,模型路径与评测数据集从微调配置继承,实现训练→评测的闭环自动化,无需人工介入。

结果可视化与导出

Auto 模式以 ECharts 指标图表 + 指标表格呈现结果;LLM-as-Judge 模式展示分数概览卡片与逐样本详情(含评审评语)。支持 Markdown / JSON 格式导出,便于归档与跨团队共享。

评测模式对比

对比项 Auto 模式 LLM-as-Judge
评测指标 BLEU-4 / ROUGE / METEOR / accuracy / eval_loss instruction_following / quality / clarity / safety / overall
评分方式 算法自动计算,确定性结果 外部 LLM 逐样本打分 1-10,附评语
最佳场景 快速回归测试、指标基线对比 主观质量评估、上线前人工复核替代
计算开销 低 — 仅推理 + 指标计算 较高 — 推理 + Judge API 调用
前置配置 选择数据集即可 需提供 Judge 端点、模型、API Key

评测工作流

1

选择模型与数据集

指定待评测的微调模型与评测数据集,支持 alpaca / sharegpt 格式

2

配置评测模式

选择 Auto 或 LLM-as-Judge 模式,配置批大小、最大样本数等参数

3

执行评测

平台通过 Volcano Job 调度评测 Pod,实时展示推理进度与 Judge 评分进度

4

查看评测报告

Auto 模式查看指标图表,Judge 模式查看分数概览与逐样本评审详情

返回 Rise ModelX