它不仅扫描了你在 Chat(日常对话)、Cowork(协作空间)甚至硬核的 Claude Code 里的每一次交互,还会根据一套严密的标准进行打分(满分 11 分) … 研究团队动用了强大的隐私保护分析工具(全程无人工干预,用 Claude 4 负责行为分类,Claude 3.5 Haiku 负责语言检测),在一个疯狂的星期里,对 9830 段真实的、多轮拉扯的匿名人类对话进行了深度扫描 … 在 24 项衡量人机协作的终极标准中,有 13 项发生在屏幕之外(比如你是否对老板隐瞒了工作是 AI 做的,你是否考虑了 AI 生成内容的伦理后果等),而剩下的 11 项,则是可以在聊天框里直接观测到的绝对指标。

