2026 年聊 AI 视频,大部分人脑子里跳出来的画面是:打开 Runway 网页,输入一段 Prompt,等几十秒,下载一段 5 秒的片段。或者 Kling、Veo、Sora,各有各的长处,但本质都是”网页上打字,服务器吐视频”。OpenMontage 走的不是这条路。
它不是又一个网页生成器。你不需要打开浏览器、不需要在文本框里精雕细琢 Prompt、不需要对着生成结果反复 reroll。你只需要在你的 AI 编程助手(Claude Code、Cursor、Copilot 任选)里说一句”帮我做一个 45 秒的动画科普短片,解释天空为什么是蓝的”,它会自己研究选题、写脚本、选素材、配音乐、上字幕、渲染输出,最后给你一份带成本明细和决策审计的完整视频。
这个过程里你不需要碰一个视频编辑软件的 UI。不是因为它做了个更聪明的界面,是因为它根本没做界面。它在你的终端里跑。你的 AI 编程助手是导演,12 条 YAML 管线是剧本,52 个 Python 工具是演员,500 多个 Markdown 技能文件是现场制片手册。视频生产的每一个产前、产中、产后步骤,都被拆成了 Agent 能读懂、能执行、能检查的工程工件。
这一个设计选择,把视频自动化从”生成一段画面”拉到了”管理一条生产线”的维度。如果你已经在用 Runway 或 Pika 做短视频,可能会觉得这个思路太重了。但反过来想,你什么时候真正只需要一段 5 秒的片段就完事了?大部分视频创作最后还是要拼在一起、加字幕、配音乐、调节奏。OpenMontage 做的事,就是把”拼在一起”后面的所有步骤都交给了 Agent。
光说思路不够,拆开看看它到底怎么做到的。
为什么这件事有意思
OpenMontage 的管线不是一条流水线,是 12 条。动画解说、电影预告、纪录片蒙太奇、播客切片、虚拟人主持、角色动画,每条管线有独立的阶段导演技能文件、质量检查点和交付承诺书。

把 12 种视频类型全塞进一个超级 Prompt 里,结果通常很脆。OpenMontage 的做法是先承认任务类型不同,再给每类任务独立的阶段、工具和审查重点。文档里反复强调一句话:The intelligence is in the skills, not in improvised code。也就是说,它不鼓励 Agent 临时写脚本乱拼,而是强制 Agent 先读规则,再调用工具。
这种约束看起来限制了 Agent 的自由度,但在这个长链路、高成本的场景里,约束反而是优势。视频生成 API 按秒计费,如果 Agent 凭感觉选模型、凭感觉调参数,账单很快就失控了。我翻了一圈同类项目的 Issue 区,成本失控是最常被抱怨的问题之一,Runway 和 Kling 的用户都在问”为什么同样的 Prompt 有时候花 2 毛有时候花 2 块”。
Provider Selector 是另一个被低估的设计。它不按固定顺序挑模型,而是按 7 个维度打分:任务匹配度(30%)、输出质量(20%)、可控性(15%)、可靠性(15%)、成本(10%)、延迟(5%)、连续性(5%)。同样是生成视频,角色一致性任务和快速样片任务的评分权重完全不同。没有”最强模型”,只有”这次最合适的模型”。
质量门禁也不只是宣传词。渲染前有幻灯片风险评分,从重复度、弱运动、镜头意图、字幕依赖等维度判断你是不是快做出一份”动画 PPT”。渲染后有 ffprobe 校验、帧采样和音频分析。如果你是拿用户给的素材做视频,系统会先 probe 分辨率、编码、音轨,不靠文件名瞎猜。
这几层门禁合在一起,本质是在用 CI/CD 的思维管视频生产。跑过全流程的人会懂,这种工程化程度带给你的信心,比某个模型多支持了一种画面比例这种 feature 大得多。
但设计得再漂亮,装不上就是零。上手路径到底顺不顺?
上手什么感觉

环境门槛不高,三样东西:Python 3.10+、Node.js 18+、FFmpeg。装好之后克隆仓库,一条命令搞定:
git clone https://github.com/calesthio/OpenMontage.git
cd OpenMontage
make setup
Windows 用户如果没有 make,README 给了 PowerShell 手动路径:
py -3 -m venv .venv; .\.venv\Scripts\Activate.ps1; python -m pip install -r requirements.txt; cd remotion-composer; npm install; cd ..; python -m pip install piper-tts; Copy-Item .env.example .env
零成本路径是 OpenMontage 最实诚的地方。不配任何 API 密钥,你就能做出一条完整视频:Piper TTS 做离线语音合成,Archive.org、NASA、Wikimedia Commons 做免费素材库,Remotion 或 HyperFrames 做渲染引擎,FFmpeg 做编码和字幕烧录。README 展示案例里那条 70 秒的亚历山大图书馆历史短片,制作成本 $0.02。
如果你想加 API 密钥提升质量,配置完全是模块化的。只加一个 fal.ai key,就能覆盖 FLUX 图片生成和 Kling 视频生成。再加 OpenAI key,多一个 TTS 和 GPT Image 2。ElevenLabs、Suno、Runway、HeyGen 各有各的接入点,用哪个接哪个,不用一把梭。
但注意,AGENT_GUIDE.md 里定的规则是:Agent 必须在重要生产决策前告知用户。用哪个工具、哪个 provider、什么模型、为什么这么选、这次是 sample 还是 batch run。不通知就执行不符合 OpenMontage 的使用规范。这个要求看起来啰嗦,但想想视频 API 的计费模式,你会感谢它。更别说很多商业 AI 视频工具根本不告诉你每次生成花了多少钱,OpenMontage 的预算追踪在每次 API 调用前都会给预估,超过上限自动暂停,不用盯着账单。
实际跑起来最容易踩的坑,先说三个:
-
Node.js 版本:remotion-composer 要求 18+,系统里装的是 16 会静默失败 -
FFmpeg 编码参数:不同平台默认 codec 不一样,Windows 用户最好在 .env 里显式指定 -
本地 GPU 视频生成:WAN 2.1、Hunyuan 等对显存要求不低,README 说 wan2.1-1.3b 可以在消费级显卡上跑,但 8GB 以下显存会比较吃力
你该不该用
| 场景 | 典型用户 | 优势 | 局限 |
|---|---|---|---|
| 批量短视频矩阵 | 内容创作者、MCN | 12 条管线覆盖主流类型,一次配置重复生产 | 首次搭建需要理解管线结构 |
| 课程/教程切片 | 教育机构、讲师 | 屏幕录制管线 + 自动字幕 + 多语言配音 | 长视频渲染时间较长 |
| 播客转视频 | 播主、自媒体 | Podcast Repurpose 管线自动找高光片段 | 中文播客转写精度一般 |
| 内部演示/产品 Demo | 产品经理、开发者 | Screen Demo 管线,零成本可跑通 | 需要熟悉终端操作 |
| 创意实验/概念片 | 独立创作者、艺术家 | 14 种视频生成器 + 10 种图片生成器自由组合 | API 成本需要手动管控 |
不适合的人也很明确,三种情况建议直接跳过:
只想打开网页 → 输入一句话 → 等结果
→ 用 Runway / Pika / Kling 更省心
Agent 驱动的终端式工作流不适合你
不能接受 AGPL-3.0 合规要求
→ 先和法务团队评估
期待"一句话生成电影级大片"
→ 目前没有任何工具能做到,OpenMontage 也不例外
和 Runway、Pika 比,OpenMontage 牺牲了即时满足感,换来了生产级质量管控和成本透明度。和传统 NLE 软件(Premiere、DaVinci Resolve)比,它牺牲了精细手动控制,换来了批量自动化。它卡在一个奇怪但合理的位置:比一键生成器更工程化,比专业软件更自动化。
社区怎么样了
| 指标 | 数据 | 说明 |
|---|---|---|
| Stars | 约 6.7k(截至 2026 年 7 月) | 3 月底首发,6 月 26 日登顶 GitHub Trending #1,日增 3400+ |
| 核心维护者 | calesthio(Calesthio AI Labs) | 单人主导,Bus Factor 偏低但提交频率高 |
| 总提交 | 187 commits | 首发至今 3 个月,平均日提交 >1.5 次 |
| 协议 | AGPL-3.0 | 商用需开源衍生代码,对 SaaS 产品有限制 |
社区讨论的热度在 6 月底明显升温。有开发者在技术社区写道:“这不是又一个视频生成器,它把 AI 编程助手的工作范围从代码扩展到了媒体资产生产”。HackerNews 上的讨论集中在两个方向:一是质疑这种 Agent-driven 模式是否真的比一键生成更高效,二是关心 AGPL-3.0 对商业使用的限制。

6.7k Stars 对于一个发布 3 个月的项目来说不算低,但更值得看的是增长速度。6 月 26 日登顶 Trending 当天单日新增 3400+ Stars,说明这个方向戳到了一批人的真实需求。Issue 区的讨论质量也不错,不只是”怎么装不上”这类基础问题,有不少是关于管线定制、provider 扩展、渲染优化的深度建议。
不过单人维护是一个真实风险。Bus Factor 为 1 的项目,长期来看需要关注社区贡献者的参与度。目前已经有 PR 被合并的记录(PR #256 修复了 gpt-image 默认值问题),说明外部贡献通道是通的,只是贡献者基数还需要时间积累。
我的真实判断
OpenMontage 最值得关注的地方,不是它能一次性做出”完美大片”。这类承诺我一般都打折听。
真正的价值是它重新定义了”AI 做视频”这件事的边界。之前的 AI 视频工具都在试图做同一件事:把”写 Prompt”的体验做到极致,让用户越来越方便地生成越来越好的片段。OpenMontage 说:停,视频不是片段。视频是一条生产线。
这个判断背后有一个更深的洞察。AI 编程助手的能力增长曲线正在超越”写代码”的范畴。Claude Code 能读文件、跑命令、改配置、写检查点、调用 API。如果把视频生产拆成这些原子操作的排列组合,那 AI 编程助手天然就是视频导演的最佳候选人。不需要再做一套新的视频工具,只需要做好”翻译层”,把视频专业知识翻译成 Agent 能执行的指令。
从这个角度看,OpenMontage 赌的不是视频生成技术的进步,是 AI 编程助手能力的泛化。如果 Claude Code 和 Cursor 继续沿着现在的轨迹进化,OpenMontage 这种 Agent-first 架构的价值会越来越高。反过来,如果 AI 编程助手的发展遇到瓶颈,那这套系统的天花板也会被锁住。
短期内,它的痛点也很真实。文档虽然结构清晰,但 12 条管线加 500 多个技能文件的学习曲线不低,新用户从零到第一条成品大概率要花掉一个下午。你不太可能装完就跑通一条复杂的 Custom Pipeline。API 费用的心理门槛也要过,虽然零成本路径真的能用,但一旦接上付费 API,一次完整的 production run 可能花掉几美元。这对习惯”免费试用 AI 视频”的心理预期来说是种落差,但也意味着你能精确知道每一分钱花在了哪里,不像商业工具那样月费扣完还不知道利用率多少。
资源地址
分析说完了,落地的事情聊两句。
先跑起来再说
如果你已经在用 Claude Code 或 Cursor 做日常开发,花一个下午把 OpenMontage 跑通是值得的。从零成本路径入手,先做一条 30 秒的动画短片感受一下管线是怎么工作的,再考虑接 API 做正式项目。
如果你还在观望,关注两个指标:社区贡献者的增长速度和 GPU 本地推理的优化进度。前者决定这个项目能不能从单人项目变成社区驱动的基础设施,后者决定免费路径的质量上限能提到多高。
说实话,这是我今年在 AI 视频方向看到的最有意思的项目,不是因为它现在多好用,是因为它指出了一条跟所有人不一样的路。
