跳到主要内容

数据工程

版本化管理、智能清洗、LLM 增强 — 高质量训练数据的全生命周期

产品概述

面向 LLM 微调与评测的全生命周期数据管理平台。提供 Git 风格多版本管理、Alpaca/ShareGPT/Custom 多格式在线编辑、Data-Juicer 五类清洗规则、LLM 批量增强与交互式增强,以及项目/租户/公开三级可见性管控,确保训练数据从采集到消费的质量与可追溯性。

核心能力

多版本数据管理

类 Git 版本化机制:每次清洗或增强自动产出新版本,支持 Creating → Uploading → Ready → Archived 四态生命周期。版本间完全隔离,Ready 版本可被训练、微调、评测任务直接引用,Archived 版本只读归档,确保数据血缘可回溯。

多格式支持与在线编辑

原生支持 Alpaca(instruction/input/output)、ShareGPT(多轮对话)、Custom(自定义字段)三种数据格式。内置代码编辑器支持 JSONL 逐行校验、JSON 语法检查、CSV/TSV 列一致性校验,直接在浏览器中编辑并保存,无需本地工具链。

Data-Juicer 智能清洗

集成 Data-Juicer 引擎,提供文本清洗、过滤、去重、隐私保护、文本规范化五大类 20+ 项规则。支持乱码移除、长度过滤、MinHash 语义去重、PII 脱敏、繁简转换等,通过三步向导配置,一键提交 K8s 清洗任务。

LLM 批量增强

对接任意 OpenAI 兼容 API(vLLM、Ollama 等),支持数据倍增(1-20x)与质量增强两种模式。按字段指定增强目标,可自定义 Prompt 控制生成策略,增强结果自动写入新版本,与训练流水线无缝衔接。

交互式增强

在线增强模式支持单条数据实时预览:配置模型端点后一键连通性检测,输入原始文本选择增强倍率,实时查看 LLM 生成结果。适合小批量调试 Prompt 与验证增强质量,结果可直接复制到数据集。

三级可见性管控

数据集支持 project(当前项目私有)、tenant(工作空间内共享)、public(全局公开)三种 scope。配合 RBAC 权限体系,实现开发隔离与组织级数据资产复用,避免重复采集与清洗。

清洗规则分类

类别 规则数 典型规则
文本清洗 2 移除乱码/不可见字符、去除 HTML/XML 标签
过滤 5 长度过滤、特殊字符比例、有害内容、语言过滤、困惑度过滤
去重 3 MinHash 语义去重、精确去重、文档内 n-gram 重复检测
隐私保护 2 PII 替换([NAME]/[PHONE])、PII 文本移除
文本规范化 3 Unicode 编码统一、空白字符标准化、繁体转简体

数据工作流

1

上传数据

创建数据集并上传文件(支持 500MB),选择 Alpaca/ShareGPT/Custom 格式,在线编辑校验

2

清洗 / 增强

配置 Data-Juicer 清洗规则或 LLM 增强策略,提交 K8s 任务自动处理

3

生成新版本

清洗或增强结果自动产出新版本,保留完整数据血缘与处理日志

4

投入训练 / 评测

Ready 状态版本可直接被训练、微调、评测任务引用,一键挂载

返回 Rise ModelX