数据工程
版本化管理、智能清洗、LLM 增强 — 高质量训练数据的全生命周期
产品概述
核心能力
多版本数据管理
类 Git 版本化机制:每次清洗或增强自动产出新版本,支持 Creating → Uploading → Ready → Archived 四态生命周期。版本间完全隔离,Ready 版本可被训练、微调、评测任务直接引用,Archived 版本只读归档,确保数据血缘可回溯。
多格式支持与在线编辑
原生支持 Alpaca(instruction/input/output)、ShareGPT(多轮对话)、Custom(自定义字段)三种数据格式。内置代码编辑器支持 JSONL 逐行校验、JSON 语法检查、CSV/TSV 列一致性校验,直接在浏览器中编辑并保存,无需本地工具链。
Data-Juicer 智能清洗
集成 Data-Juicer 引擎,提供文本清洗、过滤、去重、隐私保护、文本规范化五大类 20+ 项规则。支持乱码移除、长度过滤、MinHash 语义去重、PII 脱敏、繁简转换等,通过三步向导配置,一键提交 K8s 清洗任务。
LLM 批量增强
对接任意 OpenAI 兼容 API(vLLM、Ollama 等),支持数据倍增(1-20x)与质量增强两种模式。按字段指定增强目标,可自定义 Prompt 控制生成策略,增强结果自动写入新版本,与训练流水线无缝衔接。
交互式增强
在线增强模式支持单条数据实时预览:配置模型端点后一键连通性检测,输入原始文本选择增强倍率,实时查看 LLM 生成结果。适合小批量调试 Prompt 与验证增强质量,结果可直接复制到数据集。
三级可见性管控
数据集支持 project(当前项目私有)、tenant(工作空间内共享)、public(全局公开)三种 scope。配合 RBAC 权限体系,实现开发隔离与组织级数据资产复用,避免重复采集与清洗。
清洗规则分类
| 类别 | 规则数 | 典型规则 |
|---|---|---|
| 文本清洗 | 2 | 移除乱码/不可见字符、去除 HTML/XML 标签 |
| 过滤 | 5 | 长度过滤、特殊字符比例、有害内容、语言过滤、困惑度过滤 |
| 去重 | 3 | MinHash 语义去重、精确去重、文档内 n-gram 重复检测 |
| 隐私保护 | 2 | PII 替换([NAME]/[PHONE])、PII 文本移除 |
| 文本规范化 | 3 | Unicode 编码统一、空白字符标准化、繁体转简体 |
数据工作流
上传数据
创建数据集并上传文件(支持 500MB),选择 Alpaca/ShareGPT/Custom 格式,在线编辑校验
清洗 / 增强
配置 Data-Juicer 清洗规则或 LLM 增强策略,提交 K8s 任务自动处理
生成新版本
清洗或增强结果自动产出新版本,保留完整数据血缘与处理日志
投入训练 / 评测
Ready 状态版本可直接被训练、微调、评测任务引用,一键挂载