而今天上线的 AReaL 2.0,将问题边界进一步推到了 Agent 服务侧:真实部署中的 Agent 如何通过”会话式交互、轨迹采集、奖励绑定和异步训练”进入一个在线学习闭环 … 在 AReaL 2.0 的系统构想中,自演进 Agent 需要三根支柱:Agent Trajectory Data Protocol、Agentic Data Proxy 以及 Agent Evolution Control Plane … Hermes Agent 只是演示载体,真正可复用的是背后的接入范式:把演示中的 Agent 换成自己的任务环境和智能体,复用 AReaL 2.0 的解耦接入、会话化交互与异步训练架构,则可以搭建起面向自身业务的 Agent Online RL 流程。

