Claw-R1¶

The Data Foundation for Agentic Reinforcement Learning

Claw-R1 是 Agentic RL 的数据基础设施 — 专注于从任意 Agent 交互中采集、评估和筛选高质量训练数据，并支持人类反馈信号的整合。

Universal Data Collection

从白盒、黑盒到在线服务 Agent，通过 base_url 机制零代码接入，自动采集交互数据。支持 LangChain、AutoGen、CrewAI 等任意 OpenAI 兼容 Agent。

Base URL Integration
Data Middleware Layer

Gateway + DataPool 数据中间件：Gateway 采集交互数据，DataPool 管理数据质量、分区缓冲、按需供给训练引擎。

Middleware Layer
Data Evaluation & Curation

多维 Reward 系统（规则/判别式 RM/生成式 RM）+ 人类反馈信号整合 + 策略版本追踪，系统性评估和筛选数据质量。

Reward System
Production Agent Scenario

"部署 = 训练" 范式。Agent 在服务用户的同时持续采集数据，用户行为（采纳、修改、追问）天然成为数据质量信号。

Production Scenario

Why Claw-R1?¶

Agentic RL 生态正蓬勃发展 — verl、Agent-R1、Forge 等优秀框架在 Runtime 和训练算法方面持续推进。然而，随着 Agent 从简单 ReAct 演进到 Claude Code、OpenClaw 等通用架构，一个相对欠缺、值得深耕的方向逐渐浮现：如何从多样的 Agent 交互中系统性地采集、评估和筛选高质量训练数据？

Claw-R1 聚焦于这一方向，提供 Agent 与 Trainer 之间的数据基础设施。

维度	传统 Agentic RL 框架	Claw-R1
核心关注	训练算法与 Runtime	数据的采集、评估与筛选
Agent 接入	需要用框架 API 重写	只改 `base_url`，零代码侵入
数据来源	预收集的离线数据	实时交互自动采集 + 离线数据集
数据质量管控	较少关注	多维 Reward + 人类反馈 + 新鲜度检测
训练引擎	内置绑定	可插拔 TrainingBackend，对接任意引擎

快速开始¶

# 克隆仓库
git clone https://github.com/AgentR1/Claw-R1 && cd Claw-R1

# 运行黑盒 GSM8K 训练
export CUDA_VISIBLE_DEVICES=0,1,2
sh example/test_async_blackbox.sh

完整安装指南 · Quick Start

项目状态¶

能力	状态
白盒 Agent 数据采集	已实现
黑盒 Agent 数据采集	已实现
在线服务数据采集	开发中
异步训练供给	已实现
人类反馈管线	规划中
数据质量 Dashboard	规划中

Team¶

State Key Laboratory of Cognitive Intelligence, USTC

Citation¶

@misc{clawr1-2026,
  title={Claw-R1: The Data Foundation for Agentic Reinforcement Learning},
  author={Wang, Daoyu and Ouyang, Jie and Yu, Shuo and Cheng, Mingyue and Liu, Qi},
  year={2025},
  howpublished={\url{https://github.com/AgentR1/Claw-R1}},
  note={GitHub repository}
}