Vidu 测评:清华系的 AI 视频模型,现在到底多能打?

AI 视频生成卷了快两年,大部分模型还在解决”能不能生成”的问题。Vidu 想的却是另一件事,让你用几张参考图,批量产出风格统一、角色不崩的短剧内容。从清华实验室走出来的生数科技,靠自研 U-ViT 架构和 Q3 的”参考生”能力,在 SuperCLUE 测评上把 Google Veo 甩出好几条街。拿了阿里近 20 亿融资后,他们喊出了”为剧而生”的口号。那普通人用起来到底怎么样?

这到底是什么

Vidu 是生数科技旗下的 AI 视频生成模型,也是国内首个纯自研架构的长时长视频大模型。公司 2023 年成立,核心团队脱胎于清华大学人工智能研究院,在扩散模型和多模态生成领域有将近十年的学术积累。

跟市面上大多数视频生成工具不同,Vidu 走的是技术深度路线:自研 U-ViT 架构把图像和视频生成统一到同一个框架下,硬是让静态图片生成的视频动作更自然、画面过渡更流畅。2024 年初代 Vidu 亮相,2025 年一口气迭代了 Q1 和 Q2,2026 年 1 月又推出了 Q3。最新这代把”参考生视频”作为核心卖点,定位直指短剧和漫剧的工业化生产。

官网:https://www.vidu.cn

Vidu 测评:清华系的 AI 视频模型,现在到底多能打?

到底强在哪

定位说得很清楚,但功能上到底撑不撑得住?

Vidu 最拿得出手的能力,其实不是”能用”,而是”能反复用”。传统的文生视频和图生视频它当然都支持,中文提示词的理解也做得不错。但真正让它从一堆视频模型里跳出来的,是两点:参考生视频的一致性和物理模拟的自然度。

先说参考生视频。Q3 版本支持上传最多 7 张参考图,人物、场景、道具甚至可以单独建模,模型会把它们融合成一段统一的视频。这跟之前”每次生成都是开盲盒”的体验完全不是一个物种。创作者可以建一个”主体库”,把验证过好用的角色和场景存下来,下次直接调用,不用重新描述。据实测数据,分镜准备工作量能减少约 80%。

Vidu 测评:清华系的 AI 视频模型,现在到底多能打?

物理模拟是另一个杀手锏。测试里”风吹窗帘”的场景,布料褶皱和运动轨迹的自然程度是三家里最接近实拍的。液体流动、物体碰撞这类场景也一样,不会出现那种一眼 AI 的塑料感。生成速度方面,闪电模式下 1080P 5 秒视频约 20 秒就能出片。

Q3 的声画同步输出是个值得单独拿出来说的功能。它能一次性生成对话、旁白、音效、音乐四类音轨,最长 16 秒。对于做短剧的人来说,这省掉了后期配音的一整道工序。

核心能力 Vidu Q3 说明
文生视频 中英文提示词,中文场景优化
图生视频 物理运动模拟自然,支持多风格
参考生视频 ✅ 核心 最高 7 张参考图,主体库可复用
声画同步 ✅ Q3 新增 16 秒,四类音轨直出
特效和音效 六大特效 + 五大音效
最长时长 16 秒 远低于 Kling 的 2-3 分钟
最高分辨率 4K Pro 及以上版本支持
生成速度 20 秒/5 秒视频 闪电模式,1080P

怎么用

功能看着挺唬人,注册到上手顺不顺畅?

打开 vidu.cn 直接微信扫码就能登录,不用填资料也不用绑手机。首页设计得比较清爽,中间一个大对话框,底部几个快捷模板。新手进去的第一感受是,不像传统视频剪辑软件那样菜单叠菜单,更像是一个聊天窗口。你输入描述,点生成,等着就行。

我试的第一条是”一个穿汉服的女生在竹林里弹古筝,逆光,微风吹动发丝和衣袖,浅景深,电影感”。等了大概 25 秒,出来一段 5 秒的视频。人物姿态和光影确实有几分电影质感,衣袂飘动的物理感比预期真实。但也有翻车的时候:弹古筝的手部动作不够精准,有几帧手指位置漂了。

Vidu 测评:清华系的 AI 视频模型,现在到底多能打?

第二圈换参考生视频模式,上传了一张动漫角色立绘和一张中式庭院背景图,Prompt 写了”角色在庭院里缓步行走,微风拂过,落花飘落”。这次出来效果明显更稳,角色外形全程没崩,场景透视也基本正确。全程从上传到出片不到一分钟,如果换成传统手绘加后期,工作量差着一个数量级。

免费版生成的内容会带水印,分辨率也锁在 720p。对想先在手机上发发朋友圈的人来说够用,但要正经做内容,还是得掏钱升级。

进阶玩法

基础操作不难,但真正的好戏还在后面。

很多人不知道还有这些技巧:

  • 主体库是核心资产:每次用参考生模式生成效果满意的角色,别急着关,点保存到主体库。之后做系列内容直接调用,不用重新上传参考图重跑。做 30 集短剧的话,这个操作能省掉至少一半的角色建模时间。
  • 错峰生成白嫖大法:非高峰时段(通常是深夜和凌晨)Vidu 有不限量免费生成模式,不消耗积分。如果你做的是批量测试或者素材池搭建,把生成任务排到深夜跑,成本直接归零。
  • 7 图融合有讲究:Q2 和 Q3 的参考生支持 7 张参考图,但不是越多越好。实测下来 3-4 张(一张人脸、一张全身、一张场景、一张道具)是黄金配比。图太多反而会让模型注意力分散,导致画面风格不统一。
  • 提示词要写镜头语言:Vidu 对专业镜头描述的理解力是同类产品里最强的。写 Prompt 时加上”浅景深”“推轨镜头””ARRI Alexa 色调”这类术语,生成出来的画面质感会明显上一个台阶。别只描述内容,把运镜方式也写进去。

和同类比怎么样

自己用着好不算,拉到赛道上和对手过两招。

AI 视频生成赛道现在群狼环伺。有字节的即梦和 Seedance、快手的可灵、阿里的万相,海外还有 OpenAI 的 Sora 和 Google 的 Veo。Vidu 在这个牌桌上的定位很有意思:它不是全能选手,但在几个关键维度上做到了极致。

对比维度 Vidu Q3 可灵 Kling 2.6 Sora 2 Seedance 1.5 Pro Veo 3.1
核心优势 参考生一致性 人像稳定 画质真实度 运镜理解 出单率高
最长时长 16 秒 2-3 分钟 10-25 秒 未公开 ~8 秒
分辨率上限 4K 1080P 1080P 1080P 1080P
物理模拟 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐
中文理解 ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐
性价比 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐

结论很简单:想做长视频叙事,Vidu 不是你的菜,16 秒的天花板摆在那。但如果你做的是短剧分镜、动漫内容、电商展示这些需要角色一致性+批量产出的场景,Vidu 的参考生模式目前没有对手。SuperCLUE 的测评数据也能证明这点:Q3 在多图参考总榜以 70.89 分登顶,可灵 Q2 是 64.01 分,Google Veo 只有 55.43 分。

真实用户怎么说

参数上赢了,来听听真正用的人怎么说。

社交媒体上的评价两极分化挺明显。正面声音主要来自短剧和动漫圈:“Vidu 成功解决了角色一致性这个老大难”、“做国风内容真的没有能打的对手”、“错峰模式零成本,小团队福音”。有位连续做了 30 集 AI 漫剧的创作者说,换了 Vidu Q3 之后,每一集角色外形统一度比之前用其他模型高了不是一个档次。

吐槽的点也很集中。被诟病最多的是时长太短,5 到 16 秒需要大量拼接才能做成片。有人直言”做一条 1 分钟的片子得拼十几段,剪辑工时比生成时间还长”。情感表达方面也被多次点名,角色表情含蓄、节奏偏慢,遇到哭戏或者爆发戏就撑不住。复杂动作场景的前后帧衔接也不稳定,快速转身时偶尔会出现画面闪烁。

SuperCLUE-ComicShorts 漫剧专项评测里 Vidu Q3 拿了第一,但同一份报告也指出,AI 漫剧整体爆款率只有 0.16%。工具强不代表内容一定爆,这一点用户心里也有数。

多维评分

评价有赞有踩,那从专业维度看它到底能拿几分?

维度 评分 一句话解读
功能完整性 ⭐⭐⭐⭐☆ 视频生成硬核,缺少图片生成和配套编辑工具
易用性 ⭐⭐⭐⭐⭐ 微信扫码即用,对话式交互零学习成本
性价比 ⭐⭐⭐⭐⭐ 错峰免费+单秒成本行业最低,旗舰版商用划算
创新性 ⭐⭐⭐⭐⭐ 参考生模式首创,主体库思路领先竞品一代
稳定性 ⭐⭐⭐☆☆ 复杂动作帧衔接有漂移,多主体场景偶发崩溃
推荐度 ⭐⭐⭐⭐☆ 短剧和动漫创作者首选,长视频需求不建议
综合评分:8.2 / 10

优点和槽点

优势

  • 参考生一致性断层领先:7 图融合+主体库,角色外貌在多段视频中高度统一,短剧工业化生产的核心痛点被解决了
  • 物理模拟自然度最高:布料、液体、光影模拟在同赛道中表现最接近实拍,不是那种”AI 塑料感”
  • 单秒成本行业最低:错峰免费+4 分/秒的成本底线,批量生成预算压力远小于竞品
  • 中文和东方美学理解独到:武侠、国风、水墨画等题材的生成效果是 Sora 和 Veo 完全比不了的

不足

  • 时长硬伤:16 秒上限对需要完整叙事的创作者是致命限制,拼接产生的额外工作量抵消了一部分生成效率优势
  • 复杂场景稳定性不够:多主体交互和剧烈动作场景下,画面漂移和闪烁问题仍有待解决
  • 生态单薄:没有图片生成、没有在线剪辑、社区资源也远少于可灵,一站式创作体验还没打通

适合谁用

说了这么多,你到底用不用得上?

  • AI 短剧/漫剧创作者:参考生能力对你是刚需。角色不崩+场景复用+声画同步,一条龙省掉 80% 的前期准备。做系列内容的话,Vidu 是目前投入产出比最高的选择。
  • 广告和品牌内容制作方:需要大量风格统一的视频素材但预算有限,4K 输出+商用授权+错峰免费模式非常友好。飞鹤奶粉等品牌已经跑通了合作案例。
  • 电商和产品展示:多版本快速产出的能力适合 A/B 测试不同的展示风格,错峰模式下成本几乎为零。
  • 动漫和国风内容创作者:二次元角色表演细腻,中国元素理解在同赛道里独一档。如果你做的内容是仙侠、古风、神话类,其他模型很难替代 Vidu。
  • 不太适合的人群:需要 2 分钟以上完整叙事的长视频创作者,Vidu 的时长天花板会让你很痛苦。另外追求一站式工具的创作者也会觉得生态不够用。

定价方案

东西不错,那价格到底香不香?

截至 2026 年 5 月,Vidu 官网在售四个版本:

版本 月费 核心权益 适合谁
免费版 ¥0 每日少量额度,720p,带水印 体验尝鲜
标准版 ¥79 1080p,~500 积分 轻度创作者
专业版 ¥199 4K,~2000 积分 需要高质量输出的创作者
旗舰版 ¥629 8000 积分/月,商用授权,7×24 支持 高频商业用户

旗舰版有季付优惠,399 元/季相当于打了六三折。国际版(vidu.com)定价是 Standard $9.99 / Premium $19.99 / Ultimate $59.99,年付再打八折。

算笔实在账:旗舰版 8000 积分,按平均 40 积分一条 4 秒视频算,一个月能出 200 条。折合每条不到 3 块 2,加上错峰模式的免费额度,日产量还能再往上拉。对比 Sora 一条 5 秒视频就要 3 块多,Vidu 的性价比优势是实打实的。如果只是偶尔玩玩,免费版加错峰模式基本够用。

常见问题

看完上面这些,你可能还有几个纠结的点。

Q1:Vidu 免费版能用多久?

A1:不限时,但有水印和积分限制。 免费版每天给少量积分额度,生成视频带水印,分辨率锁 720p。错峰时段(深夜/凌晨)有不限量的免积分生成模式,适合试玩和轻度使用。


Q2:生成的视频能商用吗?

A2:只有旗舰版及以上包含商用授权。 免费版、标准版、专业版生成的内容默认仅限个人学习和展示,不能用于商业发布或广告投放。想做商业短剧或品牌物料,需要开通旗舰版。


Q3:Vidu 和可灵(Kling)怎么选?

A3:看你的核心需求是时长还是角色一致性。 Kling 能生成 2-3 分钟的长视频,适合完整叙事内容。Vidu 只有 16 秒,但参考生模式的角色一致性无可匹敌。做短剧分镜和系列动漫选 Vidu,做长视频叙事选 Kling。


Q4:Vidu 需要下载安装吗?

A4:不需要,纯网页端使用。 打开 vidu.cn 用微信扫码或手机号登录就能用,所有生成在云端完成。目前有网页版和移动端 App,没有桌面客户端。


Q5:为什么我生成的视频和演示效果差很多?

A5:大概率是提示词写得不够专业。 Vidu 对镜头语言术语的理解非常敏感。在 Prompt 里加入”浅景深”“推轨镜头””ARRI Alexa 色调”这类描述,画面质感会明显提升。纯描述内容但不写运镜方式,生成结果会比较随机。


Q6:参考生视频最多能用几张参考图?

A6:Q2 和 Q3 最高支持 7 张。 不过实测下来 3-4 张是最佳配比:一张人脸、一张全身、一张场景、一张道具即可。7 张全上容易让模型注意力分散,反而不稳定。


Q7:Vidu 支持生成声音吗?

A7:Q3 版本支持声画同步输出。 能一次性生成对话、旁白、音效、音乐四类音轨,最长 16 秒。之前的版本(Q1、Q2)只有视频没有音频,这是 Q3 的一个重要升级。


Q8:Vidu 是哪个公司的?跟清华有什么关系?

A8:北京生数科技,清华系出身。 核心团队来自清华大学人工智能研究院,自研 U-ViT 架构。2025 年完成近 20 亿元 B 轮融资,由阿里云领投,估值超 120 亿元。2026 年计划港股上市。


Q9:积分用完了怎么办?

A9:可以额外购买积分包,或者用错峰模式白嫖。 额外积分 9 折充值,有效期 2 年。错峰时段生成不消耗积分。年费会员还能享受算力消耗 85 折的折扣。


Q10:Vidu 多久出一次新模型?

A10:迭代节奏很快,大概半年一个版本。 Q1 在 2025 年 7 月发布,Q2 在 2025 年 10 月,Q3 在 2026 年 1 月。从 Q1 到 Q3 只用了半年时间,能力从基础视频生成进化到了声画同步+专业级特效。


所以到底值不值得

Vidu 不是那种”什么都能干”的通用视频模型。它选择了一条更窄也更狠的路:把参考生视频的一致性做到极致,让批量产出风格统一的短内容从手工活变成流水线。

对于做系列短剧、动漫、国风内容的创作者来说,Vidu Q3 是当前投产比最高的选择,甚至没有平替。如果你需要的是一个全能的视频创作平台,或者要产出 2 分钟以上的长内容,那 Vidu 大概率会让你憋屈。

建议先注册免费版,在错峰时段试几条,看看 16 秒的天花板你能不能接受。能接受的话,豪华版一季 399 块的花费大概率能值回来。接受不了也不亏,至少比直接掏钱后悔强。

AI工具

Speechify 测评:从文字转语音到全栈语音AI,做对了什么

2026-6-1 8:47:41

AI工具

MiniMax M3 评测:技术硬刚全球顶尖,商业化却让开发者炸了

2026-6-1 16:41:19

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧