不靠专家出题，8万条人类终端录像，炼成首个真实CLI工作流基准TerminalWorld

2026-6-22 14:17:58

TerminalWorld 想讲的，其实是一件朴素的事：测评 AI 最好的原材料，不在专家的题库里，而在人类真实干过的活里。

专家再聪明，也想象不尽真实世界的全部模样，榜单上的高分，量不出一个 Agent 在真实终端里到底靠不靠谱。

终端，是软件开发里最朴素、也最关键的一环。

一个 Agent 能不能在真实的终端工作流里站稳脚跟，才是它能不能真正走进开发者日常的试金石。

说到底，最好的考题，人类早就写好了，就写在他们的终端里。

圈主管理员

热门评论

该帖子评论已关闭

图片审查中...

编辑答案：我的回答：最多上传一张图片和一个附件

表情

图片

附件

取消编辑

{{userData.name}}已认证