CLI-Anything:让 AI Agent 操控一切软件,港大这个项目是认真的吗?

我在 GitHub 上泡了五年多,看到这个数字的第一反应是警惕:又一个靠”Agent”概念冲上热榜的项目。今年上半年带 Agent 标签的新仓库,十个里有八个是套壳 Demo,README 写得天花乱坠,跑起来第三条命令就报错。

但 CLI-Anything 不太一样。它做的事情既激进又务实:**直接把 Blender、GIMP、OBS Studio 这些图形软件,一键转成 AI Agent 能调用的命令行接口。**不是让 Agent 去”看懂”屏幕上的按钮,而是直接给软件加一层 CLI 皮,Agent 用 blender render --scene house.blend 就能完成操作。

这个思路拆穿了很简单:今天的软件是为人类设计的,菜单、对话框、拖拽。但明天的用户可能是 AI Agent,它不需要图形界面,只需要命令和 JSON 输出。CLI-Anything 做的就是把前者翻译成后者,而且整个过程是全自动的。

这篇文章想搞清楚的不是它支持了多少款软件这种表面数据,而是三个更核心的问题:这套自动化流水线产出的 CLI 质量到底怎么样?它在什么场景下是真需求,什么场景下是过度设计?以及值不值得你现在就开始跟这个项目?

为什么值得关注

先说我真正改观的那个瞬间。翻完它的测试报告之后,我开始认真对待这个项目了。

整个仓库有 2,461 个测试,100% 通过率。注意,不是单元测试的 Mock 数据——是真的启动 Blender,真的调用 GIMP 的 API,真的让 LibreOffice 后台渲染一个文档,然后验证 CLI 的输出是否符合预期。Blender 208 个测试,Inkscape 202 个,Audacity 161 个。如果目标软件没装,测试就直接失败,不跳过不标记。这种”零妥协依赖”的测试策略在开源项目里相当少见,它意味着团队不是在炫技,是真的想把质量做扎实。

测试之外,这套自动化流水线本身的设计也值得拆开看看。整个流程分 7 个阶段:Phase 1 扫描源码映射 GUI 操作到 API,Phase 2 自动设计命令组和状态模型,Phase 3 生成带 REPL、JSON 输出、撤销/重做的 Click CLI,后续四个阶段覆盖测试计划、测试实现、文档和 PyPI 发布。它不是在”写一个 wrapper”,而是在完整复现一个人类工程师从零构建 CLI 的全流程,只不过跑得更快。

CLI-Anything:让 AI Agent 操控一切软件,港大这个项目是认真的吗?

第三个亮点是 Agent 原生设计。每条命令都内置了 --json 标志输出结构化数据,Agent 通过 --help 和 which 命令发现能力。配合自动生成的 SKILL.md 文件,Claude Code 和 Pi 等主流 Agent 平台能零配置接入。这不是”顺带支持一下 Agent 调用”,而是从一开始就以 Agent 为第一用户来设计接口。

最后说说 CLI-Hub。它本质上是一个”Agent 工具的包管理器”:cli-hub search 搜索可用 CLI,cli-hub install 一键安装,cli-hub launch 启动运行。这层生态设施的存在说明团队不是在做一次性 Demo,而是在铺 Agent 时代的软件分发基础设施。从 25 个 Open PR 来看,社区贡献已经启动,虽然距离 npm 那种自驱生态还很远。

不过也别急着被测试数和自动化震撼。有个社区贡献者实际跑了 GIMP CLI 的完整流程后,发现了一个很诚实的 bug:创建图层和添加文字的命令虽然返回了成功,但数据并没有写入会话文件。代码级定位结果是 layer_new 函数调了 snapshot() 保存到 undo 栈,却漏掉了 save_session() 的调用。这个 bug 影响范围不小,layer_remove 等修改操作都有同样的问题。能定位到这种细粒度 bug 的社区反馈,比一万条”这个项目很好”式的评论更有价值。

不过数据好看是一回事,实际用起来顺不顺手是另一回事。上手门槛到底在哪?

上手什么感觉

CLI-Anything 的上手门槛集中在一条硬约束上:你得先装好目标软件。因为它的测试和运行都依赖真实后端,Blender CLI 需要本地装了 Blender,GIMP CLI 需要装了 GIMP。如果你只是想快速感受一下”Agent 操控软件”是什么体验,建议从轻量级的开始。Draw.io(138 个测试通过)和 Ollama(98 个测试通过)装起来不费劲,跑出来的效果也直观。

对于 Claude Code 用户,安装最简单:

/plugin marketplace add HKUDS/CLI-Anything

其他 Agent 平台(Pi、OpenClaw、Codex 等)也有对应的安装脚本,但整合深度参差不齐。Claude Code 是目前唯一被标注为”主要支持”的平台,这也是项目官方的主推方向。装完之后 Agent 就能自动发现并调用已注册的 CLI 工具,不需要额外配置。

CLI-Anything:让 AI Agent 操控一切软件,港大这个项目是认真的吗?

如果你有自己的项目想转成 Agent 可用的命令行,流程也不复杂。装好 CLI-Anything Plugin 之后跑一次 /harness 命令,流水线会自动分析你的代码库,生成 CLI 工具链和测试套件。但文档里也诚实地说了一句”一次运行可能无法完全覆盖,可能需要多次 /refine“。这不是客套话,是从社区实际使用反馈里总结出来的。

一个容易被忽略的门槛:项目依赖的模型级别很高。文档里明确写了需要 Claude Opus 4.6 或 Sonnet 4.6 级别的基础模型才能稳定输出。用小模型跑流水线,生成质量会明显下降。对个人开发者来说,这个 API 调用成本不算低。

体验上的门槛聊完了,但比”难不难用”更关键的问题是:什么时候该用,什么时候不该用?

什么时候用,什么时候别用

场景判断是做技术选型最核心的能力,这部分我不会含糊。**应该用的情况:**如果你的日常工作里频繁涉及 GUI 软件的批量操作——比如每天要渲染几十个 3D 场景、批量处理上百张图片、自动化生成图表并导出——并且你已经在用 Claude Code,那 CLI-Anything 能直接把你的 Agent 变成这些软件的批量操作员。港大演示的 FreeCAD 火星车建模、Draw.io 自动绘制 HTTPS 握手图,都是这类场景的样板。

CI/CD 管道里的自动化是另一块高价值场景。传统上,Blender 渲染和 Audacity 音频处理很难塞进自动化流水线,因为它们绑着图形界面。CLI-Anything 生成的 CLI 拆掉了这堵墙,让以前只能手动操作的软件也能进 CI。对于需要自动化多媒体处理的团队,这直接省掉了一套胶水脚本的维护成本。

**不该用的情况同样需要说清楚。**有位社区开发者在实际跑过之后给了一个很精准的判断:对于能直接写代码的 Agent(比如 OpenClaw 带 exec 工具的),CLI-Anything 的价值有限。这类 Agent 可以直接用 Python 调用 Pillow 操作图像、用 subprocess 启动 Blender,不需要中间多一层 CLI 翻译。但对于 CLI 为主的 Agent(比如 Claude Code),CLI-Anything 提供了一个标准化的解决方案。

另外,如果你需要的操作超出了 CLI 预定义的命令范围,就得面对一个选择:改 CLI 源码扩展功能,还是直接用 Python 写脚本。GIMP CLI 目前的命令列表里没有滤镜操作和路径绘制,对于需要精细控制的图像处理任务,这个覆盖度不够用。

功能受限的软件也别贸然上。如果你的目标软件不在支持列表里,自己跑 /harness 生成的 CLI 需要迭代优化,不是一次就能出成品的。而且延迟也是个问题:Agent→CLI→目标软件的调用链,每一步都有开销,Blender 启动本身就要好几秒,不适合对延迟敏感的场景。

场景判断做完了,但还有一个问题决定了这个项目值不值得长期跟:社区还活着吗?

社区怎么样了

截至 2026 年 6 月,CLI-Anything 有 42.6K Stars、4K+ Forks、788 次提交,35 个 Open Issue,25 个 Open PR。Stars 数确实好看,但我更关心维护节奏。翻一下 5 月底到 6 月初的提交记录:Hermes 技能提案、ArcGIS Pro 公共注册、Joplin/Calibre CLI 合并、多个 harness 安全加固、n8n REPL 修复。合入密度相当高,这不是那种”发完论文就不管了”的学术项目。Apache 2.0 协议,商业友好。

项目由香港大学数据科学实验室维护,有 arXiv 技术报告(2606.03854)作为方法论背书。学术机构的项目通常有个风险:核心贡献者集中在实验室内部,Bus Factor 不高。如果研究方向转了或者核心成员毕业离开,项目持续性就会打问号。

中文技术社区的关注度也不低。知乎、CSDN、掘金上 3 月份出现了多篇深度分析文章,讨论热度在 GitHub Trending 榜单霸榜期间达到高峰。有意思的是,这些文章不是那种”一键三连求 Star”的水文,好几篇都做了实际的代码调试和 bug 定位,社区的技术反馈质量相当在线。

不过还是要冷静一下。从 3 月爆火到现在的三个月里,仓库的合并速度确实很快,但这是”初期爆发”还是”可持续节奏”,还需要再观察一两个季度。快速增长阶段的质量控制往往会在后期暴露问题。目前 35 个 Open Issue 对于一个 42K Stars 的项目来说不算少,需要关注 Issue 响应速度是否跟得上。

社区数据和项目事实都摆在这了。那我的真实判断是什么?

我的真实看法

分析到这里,我的核心判断已经很清晰了:CLI-Anything 踩在一个真实的趋势上,而且目前没有真正的竞品。

“Agent 需要能操控软件”不是炒作。Claude Code 已经证明 Agent 可以编程,那下一步自然就是操控所有软件。CLI-Anything 解决的是编程之外的操作需求,用的是最务实的方式:不改软件本身,只加接口层。这种”不侵入改造、只外挂 CLI”的策略比直接魔改软件源码高明得多,它的可移植性和维护成本都更低。

从技术方案看,7 阶段自动流水线的递进关系经得起推敲。先理解源码,再设计接口,再实现测试发布。这基本就是人类工程师写 CLI wrapper 的标准流程,只是用 AI 加速了每一步。不是那种”一个 LLM call 就说搞定了”的玩具。

CLI-Anything:让 AI Agent 操控一切软件,港大这个项目是认真的吗?

但话说回来,有两点让我保持谨慎。

第一,对前沿模型的硬依赖。需要 Claude Opus 4.6 级别来保证流水线质量,个人开发者用起来 API 成本不低。如果未来模型能力波动或定价调整,整个流水线的可靠性和经济性都会受影响。这是所有”AI 驱动的自动化工具”的先天软肋。

第二,项目的长期价值取决于生态广度,不取决于实验室自己维护的 CLI 数量。目前 25 个 Open PR 说明社区参与在启动,但距离”第三方自发贡献”的自驱生态还有质变要跨。如果 CLI-Hub 能像 npm 那样让社区自动生长,那它就不是工具集,是 Agent 时代的软件分发基础设施。如果做不起来,它就只是一个”香港大学的高质量学术 Demo”。

我的最终建议分成三档:如果你今天就在用 Claude Code 做开发,工作流涉及 GIMP、Blender、OBS 等已支持的软件,值得现在就试试,前提是接受”早期开发阶段”的成熟度。CSDN 上那位开发者贡献的 bug 定位就是最好的提醒:它不一定完美,但你可以参与把它变好。如果你还在观望,盯两个信号:CLI-Hub 上第三方 CLI 数量何时超过 50 个,以及 Cursor/Windsurf 的支持何时正式上线。如果你根本不用 Claude Code,且手上的自动化需求可以用 Python 脚本覆盖,当前阶段没必要硬上。判断交了,相关的入口链接汇总如下。

资源地址

资源 地址
GitHub https://github.com/HKUDS/CLI-Anything
官方网站 https://hkuds.github.io/CLI-Anything/
CLI-Hub https://clianything.cc
arXiv 技术报告 https://arxiv.org/abs/2606.03854

链接都在这了。最后聊聊:你现在该干什么?

说完了,该你了

CLI-Anything 不是一个让你”Wow 太酷了”然后第二天就忘了的项目。它解决的是一个正在发生的真实问题:Agent 越来越能干了,但软件还没准备好被 Agent 使用。港大这个团队把”软件 Agent 化”这件事做到了当前最扎实的水平,不完美,但方向对。

建议的切入路径:Claude Code 用户直接装插件,用 Draw.io 或 Ollama 跑一个小 Demo,感受下 Agent 操控软件是什么体验。别一上来奔着 Blender 208 个测试去,先从轻量的来,路径更顺。

还在犹豫的话,记住两个信号:CLI-Hub 第三方贡献数,和更多的 Agent 平台支持。任何一个亮了,都说明生态在从”实验室项目”往”社区项目”的方向走。到那时候再入局也不迟。


FAQ

Q1:CLI-Anything 和 MCP(Model Context Protocol)是什么关系?

A1:互补,不冲突。 MCP 解决 Agent 如何调用外部服务(API、数据库),CLI-Anything 解决 Agent 如何操控本地软件。两者覆盖的场景不同,实际上项目 Demo 里已经展示了 FreeCAD 通过 MCP 桥接 Agent 的用法,说明二者可以协同。

Q2:生成的 CLI 能直接上生产环境吗?

A2:取决于目标软件。 GIMP、Blender、Inkscape 等 100+ 测试通过的软件,CLI 质量有基础保障。但社区实际使用中发现过保存 bug(如 GIMP CLI 的图层操作未调用 save_session),说明还需要踩坑和迭代。自己跑 /harness 生成的定制 CLI 更不要直接当成品用,至少做一轮 /refine

Q3:不用 Claude Code 能用吗?

A3:能,但体验打折扣。 Pi、OpenClaw、Codex 等也有支持,但整合深度和测试覆盖都不如 Claude Code 的主线。Cursor 和 Windsurf 还在”即将推出”。不排斥 Claude Code 的话,用主推平台体验最完整。

Q4:和直接写 Python 脚本操控软件比,优势在哪?

A4:可发现性和可组合性。 Python 脚本只有你知道怎么调用。CLI-Anything 生成的命令行带 --help--json 和 SKILL.md,任何 AI Agent 都能自动发现。目标是 Agent 协作而非人工自动化时,差异很明显。但如果你的 Agent 本身就能写代码(如 OpenClaw 的 exec 工具),直接用 Python 可能更灵活。

Q5:闭源软件能生成 CLI 吗?

A5:现阶段不行,质量会打折扣。 自动化流水线依赖源码分析来映射 GUI 操作到 API。只有编译好的二进制文件时,生成效果明显下降。路线图里提到了支持闭源软件打包 API 为 CLI 的计划,但还没落地。

Q6:支持多少款软件?都覆盖哪些领域?

A6:18+ 类应用,涵盖 20 余款软件。 包括图像编辑(GIMP)、3D 渲染(Blender)、矢量图形(Inkscape)、音频制作(Audacity)、办公套件(LibreOffice)、直播录制(OBS Studio)、视频编辑(Kdenlive/Shotcut)、图表绘制(Draw.io/Mermaid)、AI 推理(Ollama/ComfyUI)、游戏开发(Godot/s&box)、电子书(Calibre)、笔记(Joplin)等。

Q7:项目团队稳定吗?会不会弃坑?

A7:学术项目,但维护节奏在线。 香港大学数据科学实验室维护,arXiv 论文已发布,788 次提交且近三个月合入密度很高。Apache 2.0 协议无风险。弃坑风险确实存在(学术项目的通病),但目前没有减速迹象。关注未来 3-6 个月的提交频率和 Issue 响应速度。

开源项目

ECC:198K Stars 的开源跨 Agent 操作符系统

2026-6-10 15:15:06

行业动态

李飞飞发布世界模型新成果:一个提示,生成无限3D世界

2025-9-21 15:25:41

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧