Agent Skills 到底是什么?翻完 24 个 SKILL.md 之后我的结论

刚看到这个项目的时候我差点划走。又一个 AI 编码技能包,24 个 Skill 塞在一个仓库里,标题写着“面向 AI 编程智能体的生产级工程技能”。GitHub 上这种项目每周都会冒出来几个,点进去看一眼 README 就知道是不是换皮货。

但作者是 Addy Osmani,在 Google 干了十几年,写过《Learning JavaScript Design Patterns》,对工程纪律的执着大概能排进 Google 前十。他做这个项目的思路不是你常见的”让 AI 写得更快”,而是反过来,让 AI 写得更慢、更谨慎、更像一个接受过 code review 毒打的工程师。

翻完 24 份 SKILL.md 之后,我的第一反应不是”又一个工具”,而是”这玩意其实是给 AI 上的一整套工程纪律课”。课程表从定义需求、规划任务、构建代码、验证质量,一路到审查简化、安全加固、发布上线。每一节课都不是走形式,而是硬生生塞进了反走捷径的机制。

说真的,这篇文章不打算把所有 24 个技能列一遍。我想做的是把它的架构设计拆开来看,搞清楚一个问题:为什么一个刻意让 AI 慢下来的系统,反而可能是目前最靠谱的 AI 编码方案?

架构解析

Agent Skills 的整体架构是一个六阶段的生命周期管道。从 Idea 开始,经过 Define、Plan、Build、Verify、Review,最终到 Ship。每个阶段有一组对应的技能,阶段之间不是松散的标签,而是有严格的前置依赖和路由规则。

这个生命周期设计最巧妙的地方不在它全。市面上很多框架也号称覆盖全流程,但大多是平铺直叙的功能堆叠。Agent Skills 内置了一个元技能 using-agent-skills,专门负责把传入的任务映射到正确的技能工作流。AI 不是自己瞎选技能,而是先走一遍路由层,由元技能判断这个任务该进 Define 还是该直接进 Build。

Agent Skills 到底是什么?翻完 24 个 SKILL.md 之后我的结论

每个技能文件的内部结构也值得单拿出来看。24 个 SKILL.md 统一遵循同一套模板:Overview 说清楚干什么,When to Use 列出触发条件,Process 给出分步工作流。到这里为止还算常规。接下来的两个部分才是关键差异点。

Common Rationalizations,这是一个在文档类项目中几乎见不到的设计。它是一个”借口与反驳”对照表,左侧列出 AI 可能会找的偷懒理由,右侧直接给出反驳。比如”这个任务很简单,不需要写测试”,反驳是”简单任务恰恰是最容易引入回归 bug 的地方,测试是你唯一的证据链”。Red Flags 则是异常信号清单,在 AI 出错或卡住时触发,强制它向人类求助而不是继续瞎猜。

从架构视角看,这不是一套”技能集合”,而是一套”行为约束系统”。技能文件的核心职责不只是告诉 AI 做什么,更多时候在告诉 AI 什么不能做、什么时候该收手。

Agent Skills 到底是什么?翻完 24 个 SKILL.md 之后我的结论

Verification 在整个架构里被提到了近乎偏执的高度。每个技能结束前,AI 必须输出具体证据:测试通过截图、构建日志、运行时数据。”看起来对了”这种结论在这个系统里通不过,你必须拿出可验证的产物。这个设计来自 Google 代码审查文化,把”信任但要验证”的原则直接编码成了 AI 必须遵守的工作流步骤。

工作流分析

一个典型的任务在这个系统里走一遍是什么体验?假设你让 AI 给现有的 API 服务加一个新查询端点。

任务先经过 using-agent-skills,元技能判断这是增量实现,路由到 Define 阶段。spec-driven-development 被触发,AI 不会直接写代码,而是先输出一份 PRD:目标是什么,涉及哪些文件,用哪种代码风格,测试覆盖哪些边界,有哪些已知风险。

PRD 通过后进入 Plan 阶段。planning-and-task-breakdown 把规范拆成小块任务,每个任务都有独立的验收标准、依赖关系和预估影响范围。这里有一个硬性约束:单个变更不能超过约 100 行代码,超过就得继续拆。这个约束来自 Google 的 code review 实践,小变更的审查质量远高于大块提交。

Build 阶段由 incremental-implementation 驱动。它要求 AI 用薄垂直切片的方式实现,写完一个切片立即测试,测试通过后再提交,提交后再写下一个。特性开关贯穿整个 Build 阶段,新代码默认关着,直到测试和审查全部通过才打开。

Verify 阶段有两条路径。test-driven-development 走 Red-Green-Refactor 循环,测试金字塔强制 80% 单元测试、15% 集成测试、5% 端到端测试。另一个路径是 debugging-and-error-recovery,五步分类法:复现、定位、缩减、修复、防护,每一步都有标准的 exit criteria。失败超过三次就自动回退,不允许死磕。

Review 阶段是整个流程里最容易被忽视但投入最重的环节。code-review-and-quality 走五轴审查:正确性、安全性、性能、可维护性、可观测性。code-simplification 引用 Chesterton’s Fence 原则:在没搞清楚一段代码为什么存在之前,别删它。这个原则在 AI 编程场景下特别关键,因为 AI 的默认倾向是”看不懂就删掉重写”。

最后到 Ship 阶段,shipping-and-launch 要求走发布前检查清单:特性开关生命周期确认、分阶段发布策略、回滚程序就绪。observability-and-instrumentation 确保新端点有结构化日志和 RED 指标埋点。整个流程走完,同一个需求比直接让 AI 写要多花 2-3 倍时间。但多出来的时间全花在了写规范、拆任务、做审查这些慢活上,恰好是 AI 编码最容易跳过的环节。

使用场景

Agent Skills 最强的场景不是快速原型,而是已有代码库的增量迭代。在一个有 10 万行代码的遗留系统里加功能,AI 的自由发挥空间越大,风险越高。

以一次 API 断供迁移为例。旧 SDK 不再维护,需要迁移到新 SDK,涉及 30 多个文件和几十处调用。按照 Agent Skills 的流程,Define 阶段先出迁移规范,明确新旧 API 之间的映射关系和处理差异。Plan 阶段把 30 个文件按依赖排序,拆成 8 个小批次。Build 阶段每个批次独立实现、独立测试、独立提交。Review 阶段对每个批次做五轴审查。Ship 阶段用特性开关灰度上线。如果直接让 AI 做,大概率是一次性批量替换然后祈祷不出 bug。Agent Skills 的价值不是让代码写得更快,而是让每一步都有证据证明它是对的。

Agent Skills 到底是什么?翻完 24 个 SKILL.md 之后我的结论

另一个反直觉的场景是代码简化。AI 生成的代码普遍冗余,Agent Skills 在 Review 阶段提供了 code-simplification 技能来砍冗余。但它有一个硬前提:砍之前必须证明你理解了被砍代码存在的原始原因。这个设计特别现实,因为 AI 在简化过程中经常误删重要的边界处理逻辑。那些看起来”多余”的 if 判断,往往对应着线上曾经出过的 bug。

从社区反馈和文档综合来看,Agent Skills 在以下场景表现突出:多人协作的复杂项目、生产环境的增量变更、安全敏感型系统、需要审计追踪的企业级应用。在个人小项目、一次性脚本、探索性原型这些场景下,它会显得过于沉重。

这也引出一个值得讨论的限制:Agent Skills 假设用户已经理解并接受这些工程纪律的价值。如果一个团队本身没有 code review 文化、没有 CI/CD 流水线、没有测试习惯,让 AI 单方面遵守纪律的效果会大打折扣。技能文件能约束 AI,约束不了人。

洞察与反思

翻完这 24 个技能之后,我最大的感受不是”这个系统真全面”,而是一个更根本的问题:为什么 AI 编码工具要单独搞一套纪律系统,而不是直接复用人类已有的工程流程?

Agent Skills 给出的答案其实有点让人不舒服。因为人类工程流程的执行靠的是自觉和团队文化,而 AI 没有自觉。你没法跟 AI 说”请对自己的代码质量负责”。AI 的默认行为是最小化完成任务的成本。Agent Skills 做的事情,本质上是把隐式的工程文化翻译成了 AI 能理解的显式约束。

从这个角度看,Agent Skills 的设计哲学回应了一个更大的趋势问题:AI 编码的下一阶段竞争不是谁的模型更强,而是谁的控制系统更精细。模型能力强只能让你更快地到达错误的目的地。控制系统精细才能确保你到达正确的地方。

这个系统目前最大的缺失是反馈闭环。AI 在遵守这些纪律的过程中产生的经验和错误,没有机制沉淀回技能本身。24 个技能是静态的指令集,没有自适应能力。如果能加入 self-improving 机制,让技能根据实际执行结果调整 Rationalizations 和 Red Flags,整个系统的长期价值会翻倍。

另一个让我不太舒服的观察:Agent Skills 支持的平台多达九个,但本质上是把同一套 Markdown 文件适配到不同工具的规则目录里。Claude Code 支持得最好,Copilot 和 Cursor 只能部分使用。这种平台差异不是 Agent Skills 的问题,而是整个 AI 编码工具生态还没有统一的标准能力接口。如果未来出现跨平台的技能标准,Agent Skills 会是第一个受益者。

资源地址

资源 地址
GitHub https://github.com/addyosmani/agent-skills

总结

Agent Skills 的核心价值不在技能数量,而在于它把 Google 工程文化中那些不言自明的纪律,翻译成了 AI 必须逐条执行的显式规则。六阶段生命周期是骨架,反走捷径机制是肌肉,验证非妥协是心脏,三者形成一个完整的约束体系。

它不适合所有人。如果你的开发模式是快速试错、频繁推翻重来,Agent Skills 的约束感会让你抓狂。但如果你在维护一个跑在生产环境上的系统,每一次变更都可能影响真实用户,这套纪律课可能是目前最值得花时间啃的 AI 编码方案。

问题留给你:如果一个 AI 编码系统故意让你慢下来,你会用吗?这个问题的答案,大概也是你对工程纪律根本态度的投射。

skills资源

Academic Research Skills:最狠的设计是不替你写论文

2026-6-18 15:50:20

行业动态

「微信 ClawBot 经济」,已经开始在水面下悄悄成形了

2026-4-29 11:40:25

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧