不靠专家出题,8万条人类终端录像,炼成首个真实CLI工作流基准TerminalWorld

TerminalWorld 想讲的,其实是一件朴素的事:测评 AI 最好的原材料,不在专家的题库里,而在人类真实干过的活里。

专家再聪明,也想象不尽真实世界的全部模样,榜单上的高分,量不出一个 Agent 在真实终端里到底靠不靠谱。

终端,是软件开发里最朴素、也最关键的一环。

一个 Agent 能不能在真实的终端工作流里站稳脚跟,才是它能不能真正走进开发者日常的试金石。

说到底,最好的考题,人类早就写好了,就写在他们的终端里。

圈主 管理员

热门评论
:
该帖子评论已关闭
图片审查中...
编辑答案: 我的回答: 最多上传一张图片和一个附件
x
x