小黑不是吉祥物:拆解 Ian Xiaohei Illustrations 的认知配图哲学

你写完一篇两千字的技术文章,截了几张操作图,排版整齐,逻辑自洽。但总感觉少了点什么。那些藏在段落里的判断和隐喻,光靠文字就是差口气。你试过放一张 Unsplash 氛围图,但你自己也知道,那张图跟内容没什么关系。

这不是你一个人的问题。多数中文技术文章配图只有两种状态:要么是纯装饰的氛围图,跟正文毫无关联;要么是工程化的流程图和架构图,读起来像产品说明书的一部分。两种配图都很难让读者翻到那一页的时候真正记住你在说什么。

Ian Xiaohei Illustrations 是 Ian(伊恩)开发的一个 Codex Skill,目前在 GitHub 上有接近三千个 Star。它专门解决上面这个尴尬。核心逻辑不是”给文章配一张好看的图”,而是”把文章里最关键的那个认知动作画出来”。它有一个视觉 IP 叫”小黑”,一个黑色实心、白点眼、细腿、没有表情的小角色,不是吉祥物,是荒诞而认真的”认知工作人员”。

说真的,这篇文章想讲明白的就一件事:为什么你文章里的配图,总让人觉得”有没有都行”,而小黑的图能让你记住那个观点。我把这个 Skill 的内部结构、九步工作流和设计思路拆了一遍。如果你在做知识型内容、方法论输出或者 AI 工作流分享,看完应该能判断它是不是你内容生产线上缺的那一环。

环境准备

安装没什么门槛。不需要注册账号,不需要 API Key,甚至不需要配置环境变量。唯一的硬前置是:你得在用 Codex。如果你还没装 Codex,先去官网搞定基础环境。Ian 的 Skill 基于 Codex 的 Skills 机制运行,本质上就是把一组结构化指令注入 Agent 的上下文。

安装就两条命令。先从 GitHub 克隆仓库,再把 Skill 目录拷贝到 Codex 的 skills 路径下:

git clone https://github.com/helloianneo/ian-xiaohei-illustrations.git
cd ian-xiaohei-illustrations
mkdir -p "${CODEX_HOME:-$HOME/.codex}/skills"
cp -R ./ian-xiaohei-illustrations "${CODEX_HOME:-$HOME/.codex}/skills/"

目录结构值得注意:仓库根目录放的是 README 和示例图片,真正的 Skill 主体在 ian-xiaohei-illustrations/ 子目录里,包含 SKILL.md 主定义文件、agents 配置,以及 references 下五个核心参考文档(style-dna.md、xiaohei-ip.md、composition-patterns.md、prompt-template.md、qa-checklist.md)。

装完之后验证很简单。在 Codex 里输入 Use $ian-xiaohei-illustrations,如果 Agent 正确识别了这个 Skill 名称并开始询问你要做什么,说明安装成功。如果没反应,大概率是路径没放对,检查一下 ~/.codex/skills/ 下是否存在 ian-xiaohei-illustrations/SKILL.md

小黑不是吉祥物:拆解 Ian Xiaohei Illustrations 的认知配图哲学

新手最容易卡的地方不是安装,是理解它的定位。很多人第一次跑,直接丢一段 prompt 进去期望得到五张精美插图,结果出来的是六张”黑不溜秋的小人儿在白底上手舞足蹈”。这不是 bug,是它故意的视觉风格。你需要在用之前搞清楚:它产出的是正文配图,不是品牌插画,不是 PPT 配图,更不是 Midjourney 生成的那种精致渲染图。

操作流程

这个 Skill 的工作流可以拆成九个步骤,但理解起来没那么复杂。核心思路就一条:先理解文章,再画图。它不会一上来就生成图片,而是先做一次”认知提取”,找出文章里适合视觉化的锚点。这个锚点可以是一个判断,一个状态转换,一个流程结构,或者一个物理隐喻。

步骤 1 到 3 是分析阶段:读取文章内容,提炼核心观点和认知转折,然后输出 shot list。每张 shot 只对应一个认知锚点,不会试图把整篇文章塞进一张图。这个约束是刻意为之的。从风格 DNA 文档来看,Ian 明确要求”一张图只讲一个核心结构,不要把文章做成说明书”。这个克制本身就是一个设计判断。

步骤 4 到 6 是创意阶段:为每张图选择结构类型(支持八种,包括 Workflow、前后对比、概念隐喻、小漫画分镜等),然后重新发明一个低科技、怪诞但成立的物理隐喻,再让小黑承担核心动作。这是整个流程里最吃创意的环节。从 prompt-template 文档来看,每张图的生成 prompt 实际上是结构化的,不是”画一张图”的开放式指令,而是先定义结构类型,再指定隐喻,再描述小黑的具体动作和中文标注词。

步骤 7 到 9 是执行阶段:调用图像模型逐张生成,按 QA 检查清单逐项验证,最后保存 PNG 并报告用途和路径。QA 检查清单有六个维度:纯白背景、足够留白、小黑在承担核心动作而非装饰、中文标注存在且合理、没有 PPT 信息图的感觉、没有复刻示例图的构图。如果任何一项不通过,就重生成。

小黑不是吉祥物:拆解 Ian Xiaohei Illustrations 的认知配图哲学

实际使用时最需要注意的是中文标注的长度。从项目文档的提示来看,图片里的中文文字越短越稳定。AI 图像模型在生成中文时容易出现错字、变形或幻觉标签。如果生成了错字严重的中文,优先减少标注词重新生成,而不是反复调整 prompt 去修正个别文字。这个坑在社区反馈中被反复提到。

关键设计

拆开 SKILL.md 和 references 下的五个文档,能看出 Ian 在设计上做了几个很清醒的判断。

第一个判断也是最重要的:用约束换一致性。整个 Skill 不是给 AI 一个开放式的”画一张插图”的指令,而是用 style-dna.md 锁死背景(纯白)、线条(黑色手绘细线)、留白(主体占 40% 到 60%)、配色(仅红橙蓝中文批注)和构图密度(单图单锚点)。这组约束像一个”风格的笼子”,进去之后自由度降低,但输出的视觉一致性大幅提升。

第二个判断更微妙:把”认知提取”放在了”图像生成”之前。市面上大多数 AI 配图工具的逻辑是”你给 prompt,我出图”。Ian 的方案在这条链路上插入了一个关键环节:shot list 规划。Agent 必须先分析文章、提取锚点、输出一份配图规划,用户确认后再进入生成。这个环节的价值不是提高图片质量,而是确保”图在解释文章”,而不是”图在装饰文章”。

第三个判断是对视觉 IP 的严格约束。小黑不是一个可以随意增减的装饰元素。xiaohei-ip.md 里明确规定:如果去掉小黑,画面仍然完全成立,说明小黑太装饰了,不符合要求。这个规则很锋利。它在逼 Agent 和用户一起思考”小黑在这个场景里到底在干什么”,而不是”小黑站在这里是不是好看”。从设计意图推断,Ian 想达成的效果是:读者看完文章后,不是记住了一张”好看的图”,而是记住了”小黑正在推一块石头上山的那个画面”。

小黑不是吉祥物:拆解 Ian Xiaohei Illustrations 的认知配图哲学

我不确定 Ian 是否有意这样做,但这个 Skill 的做法让我想起一种产品设计哲学:不给用户最多的选项,给用户一个明确的方向。它不是”想画什么风格都可以”的通用工具,而是”就画这种风格,你接受就来用”的立场型产品。这其实是一种通过缩小选择范围来降低用户认知负担的策略。不是所有用户都买账,但接受的用户忠诚度会很高。

使用场景

最适合这个 Skill 的场景,是那种”有观点、有判断、有认知转折”的中文文章。方法论文章(复盘架构选择)、经验总结(做过 N 个项目的教训)、观点输出(对行业趋势的判断)。这类文章的共同特征是:文中有大量抽象概念和判断,仅靠文字很难让读者形成画面记忆。配一张”小黑推一块写着对应关键词的石头上山”的图,比配一张系统架构图有记忆点得多。

反过来,不适合的场景也很明确。技术教程类文章,读者需要的是精确的命令和配置,配图应该是真实的终端截图和架构图,不需要小黑来帮忙。商业提案和品牌介绍,需要的是专业感而非怪诞感。学术论文和正式报告更不用说。这个边界划得很清晰,清晰到项目 README 直接列了一张”不适合”的表格。

从社区反馈来看,有一个反复出现的实用场景值得展开:只做配图规划,不做图。很多用户用这个 Skill 的 shot list 功能来检视自己的文章结构。Agent 在分析文章时会自动提炼核心观点和认知转折,这个过程本身就是一个内容审查。如果 Agent 提炼出的核心锚点跟你写文章时想表达的完全对不上,说明文章结构可能有问题,需要重新组织。

还有一个反常识的场景:用这个 Skill 为一个金句生成单张配图。你把”信任不是喊出来的,而是一块证据一块证据铺过去”这句话丢进去,结果可能是”小黑在铺鹅卵石路,每块石头上写着证据关键词”的画面。这种用法不追求文章级别的配图完整性,而是追求单观点的视觉冲击力,很适合社交媒体分享和演讲稿配图。

洞察与反思

我对这个项目最深的感受是:它踩到了一个被大多数人忽略的需求。中文内容的配图,长期处于”要么工程化,要么装饰化”的两极。工程化那边是传统流程图和架构图,装饰化那边是 Unsplash 和 Midjourney 的氛围图。中间地带几乎是空白的。而小黑填补的正是这个中间地带:有认知功能的、有记忆点的、有个人风格的正文配图。

再往深想一层,小黑这个 IP 本身也有意思。它不是一个可爱的吉祥物,而是一个”正在认真参与系统运转的荒诞工作者”。这个设定在 AI 配图领域是稀缺的。大多数 AI 配图工具追求的是”好看”和”精致”,而小黑追求的是”有观点”和”留下记忆”。这种差异化的代价是接受度更窄,有人会觉得这黑乎乎的小人多丑啊,但留下来的用户会成为深度使用者。

小黑不是吉祥物:拆解 Ian Xiaohei Illustrations 的认知配图哲学

从 AI 内容生产的趋势来看,小黑代表的其实是一个更大的方向:AI 不应该是通用工具的堆砌,而应该是一个有性格、有审美立场的协作者。传统的 AI 配图工具给你一个 prompt 框,让你发挥。小黑给你一个视觉体系,让你在这个体系内协作。前者像给你一支万能的画笔,后者像给你一个风格固定的画室。哪种更高效?对不同的人答案可能完全不同。但如果你在做长期的内容输出,后者往往更可持续。

这个项目也有明显的天花板。它的生成效果高度依赖底层图像模型对中文的支持能力。中文错字、幻觉标签、风格漂移,这些问题短期内不太可能完全解决。而且它的视觉风格天然排斥一部分受众,你不喜欢手绘风,不喜欢极简白底,不喜欢”怪诞”调性,那这个 Skill 就是用不了的。这不是缺点,是边界。任何有性格的产品都有自己的边界。

资源地址

资源 地址
GitHub https://github.com/helloianneo/ian-xiaohei-illustrations
作者网站 https://ianneo.xyz
作者推特 https://x.com/ianneo_ai

总结

回顾整个拆解过程,Ian Xiaohei Illustrations 不是一个”功能强大”的 Skill。它是那种在特定垂类里做到极致的工具。九步工作流的设计、严格到近乎偏执的风格约束、从”认知提取”到”图像生成”的链路设计,每一项都在传递同一个信号:这不是一个通用工具,这是一个有明确立场的内容生产方案。

克隆仓库安装 Skill,找一篇你最近写的中文文章(观点类或方法论类,不要纯技术教程),用 shot list 模式跑一遍。重点看 Agent 提炼出的认知锚点跟你写文章时的想法是否一致。不一致的话,先别急着调 prompt,回头看看文章结构。

它的价值不在于生成的图片有多精致,而在于它帮你建立了一种”认知配图”的工作习惯。当你开始习惯性地问自己”这一段的核心认知动作是什么”的时候,你已经在做比配图更重要的事了:对自己的内容做结构化反思。这个习惯的养成,可能比用任何工具都更有长期价值。


FAQ

Q: 这个 Skill 适合什么人?

A: 适合写中文观点类、方法论类、经验复盘类文章的人。如果你的内容有大量抽象判断和认知转折,小黑的配图能帮你把关键观点钉在读者脑子里。不适合纯技术教程、商业提案、学术论文等需要专业感或精确性的场景。

Q: 跟 Midjourney/Stable Diffusion 生成插图有什么区别?

A: 本质区别是出发点不同。通用图像工具是”你描述画面,我画出来”。小黑是先理解你的文章,再为关键认知锚点发明视觉隐喻。前者是画具,后者是认知配图师。而且小黑的风格约束非常严格(纯白底、手绘线稿、小黑必须承担核心动作),不会产出风格漂移的图。

Q: 有什么明显的坑?

A: 三个。第一,图像模型生成的中文文字可能错字严重,字越少越稳定。第二,视觉风格不是所有人能接受,手绘怪诞风有明确的审美门槛。第三,依赖 Codex 平台,如果你不用 Codex,目前无法直接使用。

Q: 有替代方案吗?

A: 目前没有直接替代品。Ian 自己还做了 Ian Handdrawn PPT(手绘 PPT 风格页),风格一致但用途不同。如果你需要的是传统架构图和流程图,Mermaid/D2 是更合适的选择。如果你需要的是商业插画,那 Midjourney 或设计师仍然是首选。

skills资源

YouTube Watcher:让 AI 替你"看"视频

2026-6-6 18:39:36

skills资源

ClawHub 上这个近 8 万下载的 Skill,手把手教你搞定业务自动化

2026-6-8 11:57:12

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧