Boogu-Image-0.1 评测：10B 开源模型，凭什么敢跟闭源 SOTA 掰手腕

想本地跑一个能写中文海报、还免费可商用的图像模型？Boogu-Image-0.1 可能就是答案。这个 10B 参数的开源家族，在 Qwen-Image-Bench 上拿到了开源第一，分数甚至压过了参数量更大的 Qwen 和混元。Turbo 版本几步就能出一张逼真摄影图，Edit 版本还能改图换装。当然它也有短板，图生图一致性和复杂文字渲染都还不够稳。到底值不值得装，往下看。

产品概述

2026 年 6 月 22 日，一个叫 Boogu 的团队悄悄开源了 Boogu-Image-0.1。它不是单一模型，而是一整个采用 Apache-2.0 协议的统一图像生成与编辑家族，参数规模约 10B，一口气放出 Base、Turbo、Edit 等多个变体。

它最特别的地方在于“统一”。传统文生图模型只能单向出图，而 Boogu 走的是“统一理解与生成”路线，同一个网络既能读懂你的指令和输入图片，又能完成生成或编辑。这正是 GPT-Image、Nano Banana 这类顶级闭源系统背后的核心范式。

有一点必须先说清楚：官方在 GitHub 和魔搭仓库里都明确标注了“research project only, and not an official model release”，也就是说它定位是研究项目，团队的公司背景目前并未公开，社区对此也有不少猜测。这点在体验前最好心里有数。

官网：https://boogu.org | 项目地址：https://github.com/boogu-project/Boogu-Image

Boogu-Image-0.1 评测：10B 开源模型，凭什么敢跟闭源 SOTA 掰手腕

核心功能

前面说了它是个统一家族，那这套系统具体能干哪些活？把几个核心能力一项项摊开看。

高质量摄影生成是官方着力最多的方向。它对摄影类提示词的理解相当到位，人像、商业广告、时尚大片、产品图、电影感镜头都能较准确还原，光照自然、构图连贯。社区实测中，Turbo 在 4 步内生成约 1024×1024 的逼真摄影图，皮肤毛孔和光影层次都有不错的真实感。

中英双语文字渲染是它最打动中文用户的点。海外模型在中文上常见乱码、缺字、排版崩坏，Boogu 在这块明显友好得多，海报标题、招牌、广告图里的复杂汉字都能保持可读。它关注的不只是文字出不出现，而是整体版式稳不稳、中英文在不同设计里靠不靠谱。

多样风格化生成覆盖面也够广。3D 微缩、像素风、中国风插画、动漫、美漫、2.5D、游戏概念设计都能处理，二次元线条扎实、人物轮廓清晰，不是简单的风格迁移，而是能理解提示词意图的创意生成。

指令式图像编辑由 Edit 变体承担。它支持物体的插入、替换与移除，属性材质修改，背景场景替换，以及跨艺术风格的忠实迁移，还能做细粒度的图内文字编辑，替换或增删中英文字符并调整字体字重。

Boogu-Image-0.1 评测：10B 开源模型，凭什么敢跟闭源 SOTA 掰手腕

上手体验

功能列得再漂亮，真正装起来跑一遍才知道门槛在哪。我走了一遍本地部署的路径。

Boogu-Image-0.1 发布后 ComfyUI 社区第一时间跟进，文生图和图片编辑工作流都已就绪。模型依赖一个文本编码器 Qwen3-VL-8B 和 FLUX.1 VAE。架构上它是基于 OmniGen2 的 fork，由 Qwen3-VL 负责理解、双流 MMDiT 扩散变压器负责生成、FLUX.1 VAE 负责解码三部分组成。

最省心的是社区整合包，号称“下载 → 解压 → 运行”三步走。下载分卷压缩包放同一目录解压，跑 comfyui.bat 启动 ComfyUI，再跑 gradio.bat 启动 Web 界面，浏览器打开本地 7860 端口就能进生成界面，不用手动配 Python 依赖。

显存是绕不开的门槛。每个变体提供 BF16、FP8、NFP4 三种量化，体积分别约 20GB、10GB、6GB。官方建议 8GB 显存用 NFP4，12GB 用 FP8，24GB 以上用 BF16。要注意在 24GB 的 RTX 4090 上，bf16 完整管线约 37GB 装不下，必须开 offload。

实际跑起来，Turbo 的速度是真的快。社区实测 4 步生成一张 1024×1024 约 14 秒，官方还提到裸模型单次推理可低于 1 秒。日常出图当默认选项完全够用，Base 则更适合超过 100 字符的超密集文本场景。

使用技巧

基础流程跑通只是入门，真正能榨出这套模型价值的，是下面几个不太显眼的操作。

很多人不知道这几个用法能省下大量返工时间：

Edit 偏移用 Context 节点救：Edit 删物体或换装时人物位置、景别容易整体漂移。加一个 Flux Context Image 节点，先把图压到约 100 万像素再编辑，偏移几乎能降到零，效果接近 Qwen-Image-Edit-2511。
image_guidance_scale 锁身份：Edit 默认 1.0 会禁用图像 CFG，适合大胆改图但人脸会漂；想锁住身份就提到约 3，代价是编辑变保守，按需在 1 到 3 之间调。
超密集文本选 Base + 2K：渲染超过 100 字符的海报、文档、品牌指南时别用 Turbo，改用 Base 并设 2K 输出分辨率，版式保真度和字符准确率明显更高。
输入图统一压到 1M 像素：官方建议把输入图整体 resize 到 100 万像素，而不是短边压到 1k，这样才和官方训练设置对齐，编辑一致性更稳。
按显存选量化版省事：8GB 直接上 NFP4 约 6GB，12GB 用 FP8 约 10GB，别硬上 BF16 撑爆显存再去开一堆 offload 开关拖慢速度。

竞品对比

自己跑着顺手不算数，把同赛道的几个狠角色拉到一张表里，差距才看得清。

当前开源与闭源图像模型同台竞争，开源阵营里 Qwen-Image、Hunyuan-Image 是绕不开的对手，闭源端则有 Nano Banana Pro、FLUX.2 这类强基线，各自侧重点不同。直接看 Qwen-Image-Bench 上的对比：

模型	协议	参数量	关键差异化	Bench 总分
Boogu-Image-0.1	Apache-2.0	10B	统一生成+编辑、中英文字、Turbo 极速	53.58
Qwen-Image-2512	Apache-2.0	20B	强中文文生图基线	52.06
Hunyuan-Image-3.0	Other	80B	超大参数路线	50.81
Nano Banana Pro	闭源	未公开	世界知识与一致性强	59.45
FLUX 2 Pro	闭源	未公开	工业级出图质量	54.57

核心差异很清楚：Boogu 用 10B 的体量在开源里拿了第一，分数压过 20B 的 Qwen 和 80B 的混元，参数效率是真亮点。但跟 Nano Banana Pro 这种闭源顶流比，世界知识和一致性还是差着一截。它的打法不是堆参数，而是靠更强的理解能力和数据质量把性价比拉满。

用户反馈

参数和榜单是一回事，真正下载来折腾的人怎么评价，又是另一回事。我把社区的主流声音梳理了一遍，好坏都有。

文生图这块口碑相当不错。不少创作者反馈摄影人像、商业摄影、产品摄影场景效果惊喜，配合高清放大后皮肤细节和光影层次都很能打。Turbo 几秒出图的速度被反复点赞，很多人直接把它设成日常创作的默认模型，中文海报里的日期、标题、汉字也没明显崩坏。

文字渲染的好评同样集中。相比海外模型在中文上的各种翻车，Boogu 的中英双语表现被认为是开源里少有的靠谱，海报、招牌、广告图这类文字密集场景终于不用反复重抽。

吐槽几乎都集中在 Edit 上。有用户实测删除画面里的手机，物体是删掉了，但人物位置、镜头距离、构图全变了，半身照直接变特写；AI 换装时人物比例和景别也会跟着改。还有人提到 Base 在大场景生成时存在噪点、地面纹理异常，即便拉到 45 步依然存在。

多维评分

口碑有捧有踩，那从专业维度拆开来，它各项到底能打几分？

维度	评分	一句话解读
功能完整性	⭐⭐⭐⭐☆	生成+编辑+文字渲染全覆盖，Edit 一致性待补
易用性	⭐⭐⭐☆☆	整合包够友好，但本地部署吃显存
性价比	⭐⭐⭐⭐⭐	Apache-2.0 全免费可商用，10B 打 80B
创新性	⭐⭐⭐⭐☆	统一理解生成架构，Turbo 蒸馏到 3-4 步
稳定性	⭐⭐⭐☆☆	文生图稳，Edit 偏移、小肢体易畸形
推荐度	⭐⭐⭐⭐☆	开源党和中文场景值得装，求极致一致性观望

综合评分：7.8 / 10

优缺点

优势

参数效率惊人：10B 体量在 Qwen-Image-Bench 拿开源第一，压过 20B 的 Qwen 和 80B 的混元
中英文字渲染靠谱：海报招牌广告图的复杂汉字可读性强，开源里少有
Turbo 极速出图：3-4 步生成逼真摄影，裸模型推理可低于 1 秒
完全开源可商用：Apache-2.0 协议，权重代码都放出，可本地部署可微调

不足

Edit 一致性差：删物体、换装时人物位置景别明显漂移，需加节点补救
世界知识弱：地标、名人、品牌等知识覆盖远不如闭源系统
复杂文字仍不稳：长文本、小字号、密集排版可能出错字漏字
小人脸小肢体伪影：受 FLUX.1 VAE 重建损失影响，细节处易崩

适用人群

东西好不好是一回事，适不适合你又是另一回事，对号入座看看。

强烈推荐的人群：一是预算敏感、又想要可商用模型的独立开发者和小团队，Apache-2.0 免费可商用直接省掉授权成本；二是被海外模型中文乱码折磨已久的设计师和自媒体，做海报、招牌、广告图终于能少返工。

可以一试的人群：有本地显卡（哪怕只有 8GB，上 NFP4 也能跑）、喜欢折腾 ComfyUI 工作流的 AI 绘画爱好者，Turbo 极速出图很适合高频迭代创意。

建议观望的人群：对图生图一致性有严格要求的专业修图场景，Edit 当前的漂移问题会很影响效率；需要丰富世界知识、要画名人地标品牌的用户，这块差距短期难补；以及完全不想碰本地部署、只想开箱即用的纯小白。

定价方案

功能和适用人群都聊透了，最现实的问题来了，这玩意儿到底要花多少钱。

好消息是模型本身完全免费。Boogu-Image-0.1 采用 Apache-2.0 开源协议，权重和代码都已放到魔搭社区和 GitHub，你可以免费下载、本地部署、二次微调，甚至用于商业项目，唯一的成本是你的显卡和电费。

如果不想折腾本地环境，社区里也出现了第三方在线站点（如 booguimage.com）把模型包装成浏览器工作台，采用积分制，登录后有新手积分可免费体验，之后按生成量购买积分包或订阅。需要提醒的是，这类站点是第三方包装入口，并非 Boogu 官方服务，具体定价以站点实时页面为准，商用前务必核对其服务条款与模型许可。

整体算下来，对有显卡的用户，它的边际成本几乎为零，这也是开源模型最大的吸引力所在。

常见问题

看完上面这些，你心里大概还有几个没解开的疙瘩，挑高频的一次说清。

Q1：Boogu-Image-0.1 是免费的吗？可以商用吗？

A1：模型完全免费，且允许商用。 它采用 Apache-2.0 开源协议，权重和代码都已开源，可自由下载、部署、微调和用于商业项目。但若使用第三方在线站点，商用前需另行核对该站条款。

Q2：它和 Z-Image 是同一个模型吗？

A2：不是，两者是独立的开源图像模型家族。 Boogu-Image-0.1 与 Z-Image 属于相近的高效图像生成赛道，但来源不同、模型不同，官方也在致谢中将 Z-Image 列为参考对象之一。

Q3：本地部署需要多大显存？

A3：最低 8GB 显存即可起步。 8GB 用 NFP4 量化版（约 6GB），12GB 用 FP8（约 10GB），24GB 以上用 BF16（约 20GB）。注意 BF16 完整管线约 37GB，24GB 显卡也需开启 offload。

Q4：Base、Turbo、Edit 三个版本怎么选？

A4：按场景选，别贪多。 日常摄影出图和快速迭代用 Turbo（3-4 步）；超过 100 字符的密集文本海报用 Base；要改图、换装、风格迁移用 Edit。后续还会有 Edit-Turbo 和 Pro 版本。

Q5：Turbo 出图到底有多快？

A5：社区实测 4 步约 14 秒一张 1024×1024。 官方称在高性能硬件上裸模型单次推理可低于 1 秒，是目前开源里速度第一梯队的水平，适合高频试错。

Q6：它的中文文字渲染真的不崩吗？

A6：明显比海外模型靠谱，但不能说完全不崩。 海报标题、招牌等中等长度文本表现稳定，但长文本、小字号、复杂版式仍可能出现错字漏字，密集文本建议用 Base 并设 2K 分辨率。

Q7：Edit 编辑老是把图改飞了怎么办？

A7：加 Flux Context 节点 + 压到 1M 像素。 Edit 默认存在物体位置和构图漂移问题。加一个 Flux Context Image 节点、先把图压到约 100 万像素再编辑，偏移可大幅改善，一致性接近主流编辑模型。

Q8：榜单第一的成绩可信吗？

A8：需要客观看待。 Qwen-Image-Bench 第一是第三方公开榜单结果，相对可信；但 Boogu Arena 是官方自建的偏好评测，并非 LM Arena 等独立平台，参考时建议结合实测和其他来源综合判断。

Q9：它的主要短板是什么？

A9：图生图一致性和世界知识。 Edit 在严格保持主体的编辑任务上仍不稳定，部分场景落后 Seedream 5.0 和 Nano Banana Pro；地标、名人、品牌等世界知识也明显弱于闭源系统。

最终建议

Boogu-Image-0.1 是开源图像赛道一个相当扎实的新选手。它用 10B 的参数证明了一件事：不靠堆规模，靠更强的理解能力和数据质量，开源模型也能在性价比上把闭源 SOTA 逼到墙角。摄影生成、中文文字渲染、Turbo 极速出图、免费可商用，这几张牌单拎出来都够硬。

谁该装它？预算有限又要商用的开发者、被中文乱码折磨的设计师、爱折腾 ComfyUI 的绘画玩家，基本闭眼入。谁该缓缓？要求图生图严格一致的专业修图场景、需要丰富世界知识画名人地标的用户、以及完全不想碰本地部署的纯小白，目前它还接不住。它是个有诚意的起点，短板也写在脸上，就看你的需求踩不踩在它的强项上。

{{userData.name}}已认证

Boogu-Image-0.1 评测：10B 开源模型，凭什么敢跟闭源 SOTA 掰手腕

产品概述

核心功能

上手体验

使用技巧

竞品对比

用户反馈

多维评分

优缺点

优势

不足

适用人群

定价方案

常见问题

最终建议

豆包音频模型1.0评测：一句话编排对白配乐音效，真能直出影视级成品？

VidMuse 评测：把一首 Suno 歌丢进去，它真能还你一支 MV 吗

AI互联网日报：阿里整合 QoderWork、悟空和 MuleRun；Kimi 推出语音通话模式；Gemini Spark 登陆 Mac

computer-science：是一张通往硅谷的船票吗？

javascript-algorithms：前端学算法的第一站

spreadsheet：一个会写公式的 Excel 助手

data-visualization：把选图决策做成了可复用知识

Krea 2 评测：12B 美学优先模型开源，图像生成赛道格局要变了

The Book of Secret Knowledge：22 万 Star 的运维工具箱，但不是你以为的那种”书”

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议

{{userData.name}}已认证

产品概述

核心功能

上手体验

使用技巧

竞品对比

用户反馈

多维评分

优缺点

优势

不足

适用人群

定价方案

常见问题

最终建议

豆包音频模型1.0评测：一句话编排对白配乐音效，真能直出影视级成品？

VidMuse 评测：把一首 Suno 歌丢进去，它真能还你一支 MV 吗

AI互联网日报：阿里整合 QoderWork、悟空和 MuleRun；Kimi 推出语音通话模式；Gemini Spark 登陆 Mac

computer-science：是一张通往硅谷的船票吗？

javascript-algorithms：前端学算法的第一站

spreadsheet：一个会写公式的 Excel 助手

data-visualization：把选图决策做成了可复用知识

Krea 2 评测：12B 美学优先模型开源，图像生成赛道格局要变了

The Book of Secret Knowledge：22 万 Star 的运维工具箱，但不是你以为的那种”书”

相似站点

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议