Claw-R1¶
The Data Foundation for Agentic Reinforcement Learning
Claw-R1 是 Agentic RL 的数据基础设施 — 专注于从任意 Agent 交互中采集、评估和筛选高质量训练数据,并支持人类反馈信号的整合。
-
Universal Data Collection
从白盒、黑盒到在线服务 Agent,通过
base_url机制零代码接入,自动采集交互数据。支持 LangChain、AutoGen、CrewAI 等任意 OpenAI 兼容 Agent。 -
Data Middleware Layer
Gateway + DataPool 数据中间件:Gateway 采集交互数据,DataPool 管理数据质量、分区缓冲、按需供给训练引擎。
-
Data Evaluation & Curation
多维 Reward 系统(规则/判别式 RM/生成式 RM)+ 人类反馈信号整合 + 策略版本追踪,系统性评估和筛选数据质量。
-
Production Agent Scenario
"部署 = 训练" 范式。Agent 在服务用户的同时持续采集数据,用户行为(采纳、修改、追问)天然成为数据质量信号。
Why Claw-R1?¶
Agentic RL 生态正蓬勃发展 — verl、Agent-R1、Forge 等优秀框架在 Runtime 和训练算法方面持续推进。然而,随着 Agent 从简单 ReAct 演进到 Claude Code、OpenClaw 等通用架构,一个相对欠缺、值得深耕的方向逐渐浮现:如何从多样的 Agent 交互中系统性地采集、评估和筛选高质量训练数据?
Claw-R1 聚焦于这一方向,提供 Agent 与 Trainer 之间的数据基础设施。
| 维度 | 传统 Agentic RL 框架 | Claw-R1 |
|---|---|---|
| 核心关注 | 训练算法与 Runtime | 数据的采集、评估与筛选 |
| Agent 接入 | 需要用框架 API 重写 | 只改 base_url,零代码侵入 |
| 数据来源 | 预收集的离线数据 | 实时交互自动采集 + 离线数据集 |
| 数据质量管控 | 较少关注 | 多维 Reward + 人类反馈 + 新鲜度检测 |
| 训练引擎 | 内置绑定 | 可插拔 TrainingBackend,对接任意引擎 |
快速开始¶
# 克隆仓库
git clone https://github.com/AgentR1/Claw-R1 && cd Claw-R1
# 运行黑盒 GSM8K 训练
export CUDA_VISIBLE_DEVICES=0,1,2
sh example/test_async_blackbox.sh
项目状态¶
| 能力 | 状态 |
|---|---|
| 白盒 Agent 数据采集 | 已实现 |
| 黑盒 Agent 数据采集 | 已实现 |
| 在线服务数据采集 | 开发中 |
| 异步训练供给 | 已实现 |
| 人类反馈管线 | 规划中 |
| 数据质量 Dashboard | 规划中 |
Team¶
State Key Laboratory of Cognitive Intelligence, USTC