Vidu 测评：清华系的 AI 视频模型，现在到底多能打？

AI 视频生成卷了快两年，大部分模型还在解决”能不能生成”的问题。Vidu 想的却是另一件事，让你用几张参考图，批量产出风格统一、角色不崩的短剧内容。从清华实验室走出来的生数科技，靠自研 U-ViT 架构和 Q3 的”参考生”能力，在 SuperCLUE 测评上把 Google Veo 甩出好几条街。拿了阿里近 20 亿融资后，他们喊出了”为剧而生”的口号。那普通人用起来到底怎么样？

这到底是什么

Vidu 是生数科技旗下的 AI 视频生成模型，也是国内首个纯自研架构的长时长视频大模型。公司 2023 年成立，核心团队脱胎于清华大学人工智能研究院，在扩散模型和多模态生成领域有将近十年的学术积累。

跟市面上大多数视频生成工具不同，Vidu 走的是技术深度路线：自研 U-ViT 架构把图像和视频生成统一到同一个框架下，硬是让静态图片生成的视频动作更自然、画面过渡更流畅。2024 年初代 Vidu 亮相，2025 年一口气迭代了 Q1 和 Q2，2026 年 1 月又推出了 Q3。最新这代把”参考生视频”作为核心卖点，定位直指短剧和漫剧的工业化生产。

官网：https://www.vidu.cn

Vidu 测评：清华系的 AI 视频模型，现在到底多能打？

到底强在哪

定位说得很清楚，但功能上到底撑不撑得住？

Vidu 最拿得出手的能力，其实不是”能用”，而是”能反复用”。传统的文生视频和图生视频它当然都支持，中文提示词的理解也做得不错。但真正让它从一堆视频模型里跳出来的，是两点：参考生视频的一致性和物理模拟的自然度。

先说参考生视频。Q3 版本支持上传最多 7 张参考图，人物、场景、道具甚至可以单独建模，模型会把它们融合成一段统一的视频。这跟之前”每次生成都是开盲盒”的体验完全不是一个物种。创作者可以建一个”主体库”，把验证过好用的角色和场景存下来，下次直接调用，不用重新描述。据实测数据，分镜准备工作量能减少约 80%。

Vidu 测评：清华系的 AI 视频模型，现在到底多能打？

物理模拟是另一个杀手锏。测试里”风吹窗帘”的场景，布料褶皱和运动轨迹的自然程度是三家里最接近实拍的。液体流动、物体碰撞这类场景也一样，不会出现那种一眼 AI 的塑料感。生成速度方面，闪电模式下 1080P 5 秒视频约 20 秒就能出片。

Q3 的声画同步输出是个值得单独拿出来说的功能。它能一次性生成对话、旁白、音效、音乐四类音轨，最长 16 秒。对于做短剧的人来说，这省掉了后期配音的一整道工序。

核心能力	Vidu Q3	说明
文生视频	✅	中英文提示词，中文场景优化
图生视频	✅	物理运动模拟自然，支持多风格
参考生视频	✅ 核心	最高 7 张参考图，主体库可复用
声画同步	✅ Q3 新增	16 秒，四类音轨直出
特效和音效	✅	六大特效 + 五大音效
最长时长	16 秒	远低于 Kling 的 2-3 分钟
最高分辨率	4K	Pro 及以上版本支持
生成速度	20 秒/5 秒视频	闪电模式，1080P

怎么用

功能看着挺唬人，注册到上手顺不顺畅？

打开 vidu.cn 直接微信扫码就能登录，不用填资料也不用绑手机。首页设计得比较清爽，中间一个大对话框，底部几个快捷模板。新手进去的第一感受是，不像传统视频剪辑软件那样菜单叠菜单，更像是一个聊天窗口。你输入描述，点生成，等着就行。

我试的第一条是”一个穿汉服的女生在竹林里弹古筝，逆光，微风吹动发丝和衣袖，浅景深，电影感”。等了大概 25 秒，出来一段 5 秒的视频。人物姿态和光影确实有几分电影质感，衣袂飘动的物理感比预期真实。但也有翻车的时候：弹古筝的手部动作不够精准，有几帧手指位置漂了。

Vidu 测评：清华系的 AI 视频模型，现在到底多能打？

第二圈换参考生视频模式，上传了一张动漫角色立绘和一张中式庭院背景图，Prompt 写了”角色在庭院里缓步行走，微风拂过，落花飘落”。这次出来效果明显更稳，角色外形全程没崩，场景透视也基本正确。全程从上传到出片不到一分钟，如果换成传统手绘加后期，工作量差着一个数量级。

免费版生成的内容会带水印，分辨率也锁在 720p。对想先在手机上发发朋友圈的人来说够用，但要正经做内容，还是得掏钱升级。

进阶玩法

基础操作不难，但真正的好戏还在后面。

很多人不知道还有这些技巧：

主体库是核心资产：每次用参考生模式生成效果满意的角色，别急着关，点保存到主体库。之后做系列内容直接调用，不用重新上传参考图重跑。做 30 集短剧的话，这个操作能省掉至少一半的角色建模时间。
错峰生成白嫖大法：非高峰时段（通常是深夜和凌晨）Vidu 有不限量免费生成模式，不消耗积分。如果你做的是批量测试或者素材池搭建，把生成任务排到深夜跑，成本直接归零。
7 图融合有讲究：Q2 和 Q3 的参考生支持 7 张参考图，但不是越多越好。实测下来 3-4 张（一张人脸、一张全身、一张场景、一张道具）是黄金配比。图太多反而会让模型注意力分散，导致画面风格不统一。
提示词要写镜头语言：Vidu 对专业镜头描述的理解力是同类产品里最强的。写 Prompt 时加上”浅景深”“推轨镜头””ARRI Alexa 色调”这类术语，生成出来的画面质感会明显上一个台阶。别只描述内容，把运镜方式也写进去。

和同类比怎么样

自己用着好不算，拉到赛道上和对手过两招。

AI 视频生成赛道现在群狼环伺。有字节的即梦和 Seedance、快手的可灵、阿里的万相，海外还有 OpenAI 的 Sora 和 Google 的 Veo。Vidu 在这个牌桌上的定位很有意思：它不是全能选手，但在几个关键维度上做到了极致。

对比维度	Vidu Q3	可灵 Kling 2.6	Sora 2	Seedance 1.5 Pro	Veo 3.1
核心优势	参考生一致性	人像稳定	画质真实度	运镜理解	出单率高
最长时长	16 秒	2-3 分钟	10-25 秒	未公开	~8 秒
分辨率上限	4K	1080P	1080P	1080P	1080P
物理模拟	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
中文理解	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐	⭐⭐⭐⭐⭐	⭐⭐
性价比	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐	⭐⭐⭐⭐	⭐⭐⭐

结论很简单：想做长视频叙事，Vidu 不是你的菜，16 秒的天花板摆在那。但如果你做的是短剧分镜、动漫内容、电商展示这些需要角色一致性+批量产出的场景，Vidu 的参考生模式目前没有对手。SuperCLUE 的测评数据也能证明这点：Q3 在多图参考总榜以 70.89 分登顶，可灵 Q2 是 64.01 分，Google Veo 只有 55.43 分。

真实用户怎么说

参数上赢了，来听听真正用的人怎么说。

社交媒体上的评价两极分化挺明显。正面声音主要来自短剧和动漫圈：“Vidu 成功解决了角色一致性这个老大难”、“做国风内容真的没有能打的对手”、“错峰模式零成本，小团队福音”。有位连续做了 30 集 AI 漫剧的创作者说，换了 Vidu Q3 之后，每一集角色外形统一度比之前用其他模型高了不是一个档次。

吐槽的点也很集中。被诟病最多的是时长太短，5 到 16 秒需要大量拼接才能做成片。有人直言”做一条 1 分钟的片子得拼十几段，剪辑工时比生成时间还长”。情感表达方面也被多次点名，角色表情含蓄、节奏偏慢，遇到哭戏或者爆发戏就撑不住。复杂动作场景的前后帧衔接也不稳定，快速转身时偶尔会出现画面闪烁。

SuperCLUE-ComicShorts 漫剧专项评测里 Vidu Q3 拿了第一，但同一份报告也指出，AI 漫剧整体爆款率只有 0.16%。工具强不代表内容一定爆，这一点用户心里也有数。

多维评分

评价有赞有踩，那从专业维度看它到底能拿几分？

维度	评分	一句话解读
功能完整性	⭐⭐⭐⭐☆	视频生成硬核，缺少图片生成和配套编辑工具
易用性	⭐⭐⭐⭐⭐	微信扫码即用，对话式交互零学习成本
性价比	⭐⭐⭐⭐⭐	错峰免费+单秒成本行业最低，旗舰版商用划算
创新性	⭐⭐⭐⭐⭐	参考生模式首创，主体库思路领先竞品一代
稳定性	⭐⭐⭐☆☆	复杂动作帧衔接有漂移，多主体场景偶发崩溃
推荐度	⭐⭐⭐⭐☆	短剧和动漫创作者首选，长视频需求不建议
综合评分：8.2 / 10

优点和槽点

优势

参考生一致性断层领先：7 图融合+主体库，角色外貌在多段视频中高度统一，短剧工业化生产的核心痛点被解决了
物理模拟自然度最高：布料、液体、光影模拟在同赛道中表现最接近实拍，不是那种”AI 塑料感”
单秒成本行业最低：错峰免费+4 分/秒的成本底线，批量生成预算压力远小于竞品
中文和东方美学理解独到：武侠、国风、水墨画等题材的生成效果是 Sora 和 Veo 完全比不了的

不足

时长硬伤：16 秒上限对需要完整叙事的创作者是致命限制，拼接产生的额外工作量抵消了一部分生成效率优势
复杂场景稳定性不够：多主体交互和剧烈动作场景下，画面漂移和闪烁问题仍有待解决
生态单薄：没有图片生成、没有在线剪辑、社区资源也远少于可灵，一站式创作体验还没打通

适合谁用

说了这么多，你到底用不用得上？

AI 短剧/漫剧创作者：参考生能力对你是刚需。角色不崩+场景复用+声画同步，一条龙省掉 80% 的前期准备。做系列内容的话，Vidu 是目前投入产出比最高的选择。
广告和品牌内容制作方：需要大量风格统一的视频素材但预算有限，4K 输出+商用授权+错峰免费模式非常友好。飞鹤奶粉等品牌已经跑通了合作案例。
电商和产品展示：多版本快速产出的能力适合 A/B 测试不同的展示风格，错峰模式下成本几乎为零。
动漫和国风内容创作者：二次元角色表演细腻，中国元素理解在同赛道里独一档。如果你做的内容是仙侠、古风、神话类，其他模型很难替代 Vidu。
不太适合的人群：需要 2 分钟以上完整叙事的长视频创作者，Vidu 的时长天花板会让你很痛苦。另外追求一站式工具的创作者也会觉得生态不够用。

定价方案

东西不错，那价格到底香不香？

截至 2026 年 5 月，Vidu 官网在售四个版本：

版本	月费	核心权益	适合谁
免费版	¥0	每日少量额度，720p，带水印	体验尝鲜
标准版	¥79	1080p，~500 积分	轻度创作者
专业版	¥199	4K，~2000 积分	需要高质量输出的创作者
旗舰版	¥629	8000 积分/月，商用授权，7×24 支持	高频商业用户

旗舰版有季付优惠，399 元/季相当于打了六三折。国际版（vidu.com）定价是 Standard $9.99 / Premium $19.99 / Ultimate $59.99，年付再打八折。

算笔实在账：旗舰版 8000 积分，按平均 40 积分一条 4 秒视频算，一个月能出 200 条。折合每条不到 3 块 2，加上错峰模式的免费额度，日产量还能再往上拉。对比 Sora 一条 5 秒视频就要 3 块多，Vidu 的性价比优势是实打实的。如果只是偶尔玩玩，免费版加错峰模式基本够用。

常见问题

看完上面这些，你可能还有几个纠结的点。

Q1：Vidu 免费版能用多久？

A1：不限时，但有水印和积分限制。 免费版每天给少量积分额度，生成视频带水印，分辨率锁 720p。错峰时段（深夜/凌晨）有不限量的免积分生成模式，适合试玩和轻度使用。

Q2：生成的视频能商用吗？

A2：只有旗舰版及以上包含商用授权。 免费版、标准版、专业版生成的内容默认仅限个人学习和展示，不能用于商业发布或广告投放。想做商业短剧或品牌物料，需要开通旗舰版。

Q3：Vidu 和可灵（Kling）怎么选？

A3：看你的核心需求是时长还是角色一致性。 Kling 能生成 2-3 分钟的长视频，适合完整叙事内容。Vidu 只有 16 秒，但参考生模式的角色一致性无可匹敌。做短剧分镜和系列动漫选 Vidu，做长视频叙事选 Kling。

Q4：Vidu 需要下载安装吗？

A4：不需要，纯网页端使用。 打开 vidu.cn 用微信扫码或手机号登录就能用，所有生成在云端完成。目前有网页版和移动端 App，没有桌面客户端。

Q5：为什么我生成的视频和演示效果差很多？

A5：大概率是提示词写得不够专业。 Vidu 对镜头语言术语的理解非常敏感。在 Prompt 里加入”浅景深”“推轨镜头””ARRI Alexa 色调”这类描述，画面质感会明显提升。纯描述内容但不写运镜方式，生成结果会比较随机。

Q6：参考生视频最多能用几张参考图？

A6：Q2 和 Q3 最高支持 7 张。 不过实测下来 3-4 张是最佳配比：一张人脸、一张全身、一张场景、一张道具即可。7 张全上容易让模型注意力分散，反而不稳定。

Q7：Vidu 支持生成声音吗？

A7：Q3 版本支持声画同步输出。 能一次性生成对话、旁白、音效、音乐四类音轨，最长 16 秒。之前的版本（Q1、Q2）只有视频没有音频，这是 Q3 的一个重要升级。

Q8：Vidu 是哪个公司的？跟清华有什么关系？

A8：北京生数科技，清华系出身。 核心团队来自清华大学人工智能研究院，自研 U-ViT 架构。2025 年完成近 20 亿元 B 轮融资，由阿里云领投，估值超 120 亿元。2026 年计划港股上市。

Q9：积分用完了怎么办？

A9：可以额外购买积分包，或者用错峰模式白嫖。 额外积分 9 折充值，有效期 2 年。错峰时段生成不消耗积分。年费会员还能享受算力消耗 85 折的折扣。

Q10：Vidu 多久出一次新模型？

A10：迭代节奏很快，大概半年一个版本。 Q1 在 2025 年 7 月发布，Q2 在 2025 年 10 月，Q3 在 2026 年 1 月。从 Q1 到 Q3 只用了半年时间，能力从基础视频生成进化到了声画同步+专业级特效。

所以到底值不值得

Vidu 不是那种”什么都能干”的通用视频模型。它选择了一条更窄也更狠的路：把参考生视频的一致性做到极致，让批量产出风格统一的短内容从手工活变成流水线。

对于做系列短剧、动漫、国风内容的创作者来说，Vidu Q3 是当前投产比最高的选择，甚至没有平替。如果你需要的是一个全能的视频创作平台，或者要产出 2 分钟以上的长内容，那 Vidu 大概率会让你憋屈。

建议先注册免费版，在错峰时段试几条，看看 16 秒的天花板你能不能接受。能接受的话，豪华版一季 399 块的花费大概率能值回来。接受不了也不亏，至少比直接掏钱后悔强。

{{userData.name}}已认证

Vidu 测评：清华系的 AI 视频模型，现在到底多能打？

这到底是什么

到底强在哪

怎么用

进阶玩法

和同类比怎么样

真实用户怎么说

多维评分

优点和槽点

优势

不足

适合谁用

定价方案

常见问题

所以到底值不值得

Speechify 测评：从文字转语音到全栈语音AI，做对了什么

MiniMax M3 评测：技术硬刚全球顶尖，商业化却让开发者炸了

把 Claude Code 账单砍掉 70% 的离谱方案：把上下文画成图片再发出去

AI互联网日报：苹果AI获准在中国落地/美团与京东加码骑手保障/Kimi K3把开源模型推到2.8万亿参数/华为乾崑突破128亿公里

reverse-skill：一个让 AI Agent 学会逆向工程的路由操作系统

咸鱼惊现 199 元帮你定制 Codex 主题？！未曾设想的赚钱道路。。我教你怎么做

git push no-mistakes：在代码推到 origin 之前，让 AI 先审一遍

NVIDIA SkillSpector：AI Agent 技能装前安检，扫出 26% 的漏洞率不是吓你

终于有一个蒸馏 Apple 风格的 Skill 了，GitHub 上有 10.5K 人点赞。

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议

{{userData.name}}已认证

这到底是什么

到底强在哪

怎么用

进阶玩法

和同类比怎么样

真实用户怎么说

多维评分

优点和槽点

优势

不足

适合谁用

定价方案

常见问题

所以到底值不值得

Speechify 测评：从文字转语音到全栈语音AI，做对了什么

MiniMax M3 评测：技术硬刚全球顶尖，商业化却让开发者炸了

把 Claude Code 账单砍掉 70% 的离谱方案：把上下文画成图片再发出去

AI互联网日报：苹果AI获准在中国落地/美团与京东加码骑手保障/Kimi K3把开源模型推到2.8万亿参数/华为乾崑突破128亿公里

reverse-skill：一个让 AI Agent 学会逆向工程的路由操作系统

咸鱼惊现 199 元帮你定制 Codex 主题？！未曾设想的赚钱道路。。我教你怎么做

git push no-mistakes：在代码推到 origin 之前，让 AI 先审一遍

NVIDIA SkillSpector：AI Agent 技能装前安检，扫出 26% 的漏洞率不是吓你

终于有一个蒸馏 Apple 风格的 Skill 了，GitHub 上有 10.5K 人点赞。

相似站点

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议