让 AI 帮你做 PPT,这事听起来很美,真用起来全是坑。你让它生成 markdown,导出来排版稀烂;你让它写 PPTX 脚本,python-pptx 改个字号都得翻文档。最后大部分人还是回到了手动拖框的老路上。
归藏开源的 guizang-ppt-skill 想换个思路。它不做 markdown,也不碰 PPTX,而是让 AI 直接生成单文件 HTML 横向翻页 PPT。浏览器打开就能演示,键盘左右翻页,底部圆点导航,整个交付物就一个 html 文件。
更有意思的是它内置了两套完全不同的视觉系统。一套是电子杂志风,参考 Monocle 的版式,负责叙事和观点表达;另一套是瑞士国际主义风格,网格至上、单一锚点色,负责事实和产品分析。除了 PPT,它还能生成配图和多平台社交封面。
这篇文章会带你完整走一遍这个 Skill 怎么用,从安装到出片。同时我会把它背后几个反直觉的设计决策拆开看看,比如为什么它死活不让你自定义颜色。读完你能判断这个工具值不值得装进你的工作流。
环境准备
先说清楚一个前提:这不是给普通 Chatbot 用的。它需要运行在有文件系统读写权限、能执行 shell 命令的 AI Agent 环境里。Claude Code 原生支持,Codex 支持且自带图片生成能力,Cursor 和其他本地 Agent 只要能读写文件就能跑。
安装方式有三种,最省事的是一行命令。在支持 skills 协议的环境里直接执行就行:
npx skills add https://github.com/op7418/guizang-ppt-skill --skill guizang-ppt-skill
如果你的环境不认这个命令,可以手动 git clone 到 skills 目录,或者干脆把仓库地址丢给 Agent,让它自己克隆到 ~/.claude/skills/ 下并检查 SKILL.md、assets、references 三个目录是否齐全。

装好之后不用配置,Agent 会自动识别触发词。你说”帮我做一份杂志风 PPT”“生成一个 horizontal swipe deck”“基于这篇文章做张公众号 21:9 封面”,它就会进入对应工作流。有个小提醒:WorkBuddy 平台目前还在适配中,作者会单独整理上架版本,普通聊天机器人因为缺文件系统就别指望了。
操作流程
整个 Skill 是一条结构化的 8 步工作流,Agent 会牵着你一步步走,不会让你对着空白页发呆。从选风格到最终出片,每一步都有明确的产出物和检查点。

- 第一步是选风格,电子杂志风还是瑞士风。
- 第二步需求澄清最关键,它会抛出一份 7 问清单:风格倾向、目标受众、演讲时长、现有素材、是否需要配图、主题色、有没有硬约束。这一步答得越细,后面返工越少。我看下来这个澄清清单设计得比多数 PPT 工具都用心。
- 第三步是拷贝对应模板。杂志风用 template.html,瑞士风用 template-swiss.html。
- 第四步填充内容,注意它要求你先做一张”主题节奏表”,再从 layout 骨架库里挑版式粘贴改文案。杂志风有 10 种布局骨架,瑞士风有 22 个锁定版式,正文页必须从里面选,不能临时发明结构。
- 第五步是可选配图,只在 Codex 环境里能用,调 GPT-Image 2.0 或 GPT-M 2.0 按页面比例生成。第六步自检要对照 checklist.md,P0 级问题必须全过;如果做的是瑞士风,还得跑一遍版式校验脚本 validate-swiss-deck.mjs。这个脚本会检查版式还原度、图片槽位、标题对齐和危险 SVG。
最后两步是预览和迭代。浏览器直接打开 html 预览,不满意就用 inline style 微调字号、高度、间距。
这里有个容易踩的坑:瑞士风的版式是锁死的,你想改结构就得同步更新模板、版式文档、锁定规则和校验器四处,所以最好一开始就把版式选对。
关键设计
为什么要做两套视觉系统而不是一套通吃?这是我看这个 Skill 时最先想明白的事。从设计文档来看,归藏的判断是叙事和事实需要不同的视觉语言。杂志风带强烈的个人风格,适合分享和观点;瑞士风克制、网格化,适合产品和方法论。硬塞进一套模板里,两边都做不好。

瑞士风那 22 个锁定版式和”禁止自定义颜色”的规则,第一眼看像是在限制你的自由。但顺着设计逻辑往下推,会发现这是刻意的取舍。作者在文档里写得很直白:保护美学比给自由更重要。让 AI 自由发挥配色和版式,结果往往是一锅乱炖。锁死版式、限定主题色,反而保证了产出的下限稳定。
为什么是 HTML 而不是 markdown 或 PPTX?这个选择背后有四层考虑。HTML/CSS 是纯文本,Agent 能直接读、改、验证;表现力远超 markdown,能做精细排版和交互;单文件交付最轻,打开就能演示;而且瑞士风可以用脚本做版式校验,这是 PPTX 很难做到的质量控制。
它的 8 条设计原则里,我最认同”结构优于装饰”和”图片是第一公民”。信息靠字号、字体对比和网格留白来组织,不用阴影和浮动卡片堆砌。配图只做素材,不带页脚标题角标。这种克制在 AI 生成内容里很少见,多数工具恨不得把所有特效都堆上去。当然我也保留一点意见:版式锁得这么死,遇到真正非标准的内容结构时会不会无处安放,这点得实际用了才知道。
使用场景
最典型的用法是把长文章变成演讲 PPT。它的做法不是无脑切片,而是先抽核心观点,再按 6 到 10 页的节奏重新组织。这个”先抽观点再排节奏”的逻辑,比那种把文章段落直接搬上幻灯片的工具高明不少。
风格选择上有清晰的分工。做方法论拆解、产品分析这类偏事实的内容,用瑞士风,优先调锁定版式和 21:9 主图。做个人分享、观点表达这类需要叙事感的,用杂志风,保留更强的情绪和节奏。这两类内容如果用错风格,效果会差很多。
封面能力是它的一个加分项。基于同一份内容,它能生成多平台封面:公众号 21:9 头图、1:1 分享卡、小红书 3:4 竖版、视频号 16:9 横版。关键是这些封面共用主题色和视觉元素,一套内容出多平台素材时视觉能保持一致,省掉了来回对齐的麻烦。
边界也得说清楚。它明确不适合三类场景:大段表格数据(信息密度不够)、培训课件(同样是密度问题)、需要多人协作编辑的场合(静态 HTML 改起来不方便)。它擅长的是线下分享、行业讲话、私享会、AI 产品发布、Demo Day 这种带强烈个人风格的演讲。
洞察与反思
最反直觉的设计就是那个”不让你自定义颜色”。一般工具都把”高度可定制”当卖点,它偏偏反着来。但从产出稳定性这个角度看,这个决策站得住脚。给的自由越多,AI 翻车的概率越大;限定 4 到 5 套精心调过的主题色,至少保证每次出来的东西不丑。

跟传统 PPT 工具比,它的定位完全不同。传统工具是给人手动操作的,它是为 AI Agent 生成而设计的。纯文本的 HTML 让 Agent 能闭环地读改验,这是 PowerPoint 和在线 PPT 工具做不到的。从这个角度说,它不是在跟 Canva 抢市场,而是开了一条 Agent 原生的新路。
有两点需要提前知道。
- 一是 WorkBuddy 平台还在适配中,现在主要在 Claude Code 和 Codex 上跑得最顺;
- 二是许可证是 AGPL-3.0,如果你打算商用或二次开发,得留意这个传染性开源协议的约束。
这两点不影响个人使用,但团队落地前值得确认。
它的局限也很实在。核心交付是 HTML,导不出 PPTX,需要演示就用浏览器、截图或录屏,想要 ppt 文件得另外转换。瑞士风想加新版式很麻烦,要同步改四个地方。配图能力强绑定 Codex 环境,其他平台用不了。这些都是设计取舍带来的代价,不是 bug。
资源地址
| 资源 | 链接 |
|---|---|
| GitHub 仓库 | https://github.com/op7418/guizang-ppt-skill |
| 作者 X(Twitter) | https://x.com/op7418 |
| 视觉参考 Monocle | https://monocle.com |
总结
走完这一遍,guizang-ppt-skill 给我的印象很清楚:它不是又一个 PPT 生成器,而是一套为 AI Agent 量身定做的网页 PPT 方法论。8 步工作流把”做 PPT”这个模糊任务拆成了可执行、可校验的步骤,双视觉系统则解决了叙事和事实两类内容的表达分工。
最值得借鉴的不是它的功能,是它的克制。锁定版式、禁自定义颜色、配图只做素材,这些限制看似反人性,实则都在为”产出稳定”这个目标服务。在 AI 内容普遍追求”什么都能做”的当下,敢于做减法本身就是一种判断力。
如果你常做线下分享、产品发布或个人观点表达,又恰好在用 Claude Code 或 Codex,这个 Skill 很值得装来试试。先从把一篇旧文章变成瑞士风 PPT 开始,感受一下锁定版式带来的约束感,你可能会和我一样,慢慢理解为什么有时候少给选择反而做得更好。

