想本地跑一个能写中文海报、还免费可商用的图像模型?Boogu-Image-0.1 可能就是答案。这个 10B 参数的开源家族,在 Qwen-Image-Bench 上拿到了开源第一,分数甚至压过了参数量更大的 Qwen 和混元。Turbo 版本几步就能出一张逼真摄影图,Edit 版本还能改图换装。当然它也有短板,图生图一致性和复杂文字渲染都还不够稳。到底值不值得装,往下看。
产品概述
2026 年 6 月 22 日,一个叫 Boogu 的团队悄悄开源了 Boogu-Image-0.1。它不是单一模型,而是一整个采用 Apache-2.0 协议的统一图像生成与编辑家族,参数规模约 10B,一口气放出 Base、Turbo、Edit 等多个变体。
它最特别的地方在于“统一”。传统文生图模型只能单向出图,而 Boogu 走的是“统一理解与生成”路线,同一个网络既能读懂你的指令和输入图片,又能完成生成或编辑。这正是 GPT-Image、Nano Banana 这类顶级闭源系统背后的核心范式。
有一点必须先说清楚:官方在 GitHub 和魔搭仓库里都明确标注了“research project only, and not an official model release”,也就是说它定位是研究项目,团队的公司背景目前并未公开,社区对此也有不少猜测。这点在体验前最好心里有数。
官网:https://boogu.org | 项目地址:https://github.com/boogu-project/Boogu-Image

核心功能
前面说了它是个统一家族,那这套系统具体能干哪些活?把几个核心能力一项项摊开看。
高质量摄影生成是官方着力最多的方向。它对摄影类提示词的理解相当到位,人像、商业广告、时尚大片、产品图、电影感镜头都能较准确还原,光照自然、构图连贯。社区实测中,Turbo 在 4 步内生成约 1024×1024 的逼真摄影图,皮肤毛孔和光影层次都有不错的真实感。
中英双语文字渲染是它最打动中文用户的点。海外模型在中文上常见乱码、缺字、排版崩坏,Boogu 在这块明显友好得多,海报标题、招牌、广告图里的复杂汉字都能保持可读。它关注的不只是文字出不出现,而是整体版式稳不稳、中英文在不同设计里靠不靠谱。
多样风格化生成覆盖面也够广。3D 微缩、像素风、中国风插画、动漫、美漫、2.5D、游戏概念设计都能处理,二次元线条扎实、人物轮廓清晰,不是简单的风格迁移,而是能理解提示词意图的创意生成。
指令式图像编辑由 Edit 变体承担。它支持物体的插入、替换与移除,属性材质修改,背景场景替换,以及跨艺术风格的忠实迁移,还能做细粒度的图内文字编辑,替换或增删中英文字符并调整字体字重。

上手体验
功能列得再漂亮,真正装起来跑一遍才知道门槛在哪。我走了一遍本地部署的路径。
Boogu-Image-0.1 发布后 ComfyUI 社区第一时间跟进,文生图和图片编辑工作流都已就绪。模型依赖一个文本编码器 Qwen3-VL-8B 和 FLUX.1 VAE。架构上它是基于 OmniGen2 的 fork,由 Qwen3-VL 负责理解、双流 MMDiT 扩散变压器负责生成、FLUX.1 VAE 负责解码三部分组成。
最省心的是社区整合包,号称“下载 → 解压 → 运行”三步走。下载分卷压缩包放同一目录解压,跑 comfyui.bat 启动 ComfyUI,再跑 gradio.bat 启动 Web 界面,浏览器打开本地 7860 端口就能进生成界面,不用手动配 Python 依赖。
显存是绕不开的门槛。每个变体提供 BF16、FP8、NFP4 三种量化,体积分别约 20GB、10GB、6GB。官方建议 8GB 显存用 NFP4,12GB 用 FP8,24GB 以上用 BF16。要注意在 24GB 的 RTX 4090 上,bf16 完整管线约 37GB 装不下,必须开 offload。
实际跑起来,Turbo 的速度是真的快。社区实测 4 步生成一张 1024×1024 约 14 秒,官方还提到裸模型单次推理可低于 1 秒。日常出图当默认选项完全够用,Base 则更适合超过 100 字符的超密集文本场景。
使用技巧
基础流程跑通只是入门,真正能榨出这套模型价值的,是下面几个不太显眼的操作。
很多人不知道这几个用法能省下大量返工时间:
-
Edit 偏移用 Context 节点救:Edit 删物体或换装时人物位置、景别容易整体漂移。加一个 Flux Context Image 节点,先把图压到约 100 万像素再编辑,偏移几乎能降到零,效果接近 Qwen-Image-Edit-2511。 -
image_guidance_scale 锁身份:Edit 默认 1.0 会禁用图像 CFG,适合大胆改图但人脸会漂;想锁住身份就提到约 3,代价是编辑变保守,按需在 1 到 3 之间调。 -
超密集文本选 Base + 2K:渲染超过 100 字符的海报、文档、品牌指南时别用 Turbo,改用 Base 并设 2K 输出分辨率,版式保真度和字符准确率明显更高。 -
输入图统一压到 1M 像素:官方建议把输入图整体 resize 到 100 万像素,而不是短边压到 1k,这样才和官方训练设置对齐,编辑一致性更稳。 -
按显存选量化版省事:8GB 直接上 NFP4 约 6GB,12GB 用 FP8 约 10GB,别硬上 BF16 撑爆显存再去开一堆 offload 开关拖慢速度。
竞品对比
自己跑着顺手不算数,把同赛道的几个狠角色拉到一张表里,差距才看得清。
当前开源与闭源图像模型同台竞争,开源阵营里 Qwen-Image、Hunyuan-Image 是绕不开的对手,闭源端则有 Nano Banana Pro、FLUX.2 这类强基线,各自侧重点不同。直接看 Qwen-Image-Bench 上的对比:
| 模型 | 协议 | 参数量 | 关键差异化 | Bench 总分 |
|---|---|---|---|---|
| Boogu-Image-0.1 | Apache-2.0 | 10B | 统一生成+编辑、中英文字、Turbo 极速 | 53.58 |
| Qwen-Image-2512 | Apache-2.0 | 20B | 强中文文生图基线 | 52.06 |
| Hunyuan-Image-3.0 | Other | 80B | 超大参数路线 | 50.81 |
| Nano Banana Pro | 闭源 | 未公开 | 世界知识与一致性强 | 59.45 |
| FLUX 2 Pro | 闭源 | 未公开 | 工业级出图质量 | 54.57 |
核心差异很清楚:Boogu 用 10B 的体量在开源里拿了第一,分数压过 20B 的 Qwen 和 80B 的混元,参数效率是真亮点。但跟 Nano Banana Pro 这种闭源顶流比,世界知识和一致性还是差着一截。它的打法不是堆参数,而是靠更强的理解能力和数据质量把性价比拉满。
用户反馈
参数和榜单是一回事,真正下载来折腾的人怎么评价,又是另一回事。我把社区的主流声音梳理了一遍,好坏都有。
文生图这块口碑相当不错。不少创作者反馈摄影人像、商业摄影、产品摄影场景效果惊喜,配合高清放大后皮肤细节和光影层次都很能打。Turbo 几秒出图的速度被反复点赞,很多人直接把它设成日常创作的默认模型,中文海报里的日期、标题、汉字也没明显崩坏。
文字渲染的好评同样集中。相比海外模型在中文上的各种翻车,Boogu 的中英双语表现被认为是开源里少有的靠谱,海报、招牌、广告图这类文字密集场景终于不用反复重抽。
吐槽几乎都集中在 Edit 上。有用户实测删除画面里的手机,物体是删掉了,但人物位置、镜头距离、构图全变了,半身照直接变特写;AI 换装时人物比例和景别也会跟着改。还有人提到 Base 在大场景生成时存在噪点、地面纹理异常,即便拉到 45 步依然存在。
多维评分
口碑有捧有踩,那从专业维度拆开来,它各项到底能打几分?
| 维度 | 评分 | 一句话解读 |
|---|---|---|
| 功能完整性 | ⭐⭐⭐⭐☆ | 生成+编辑+文字渲染全覆盖,Edit 一致性待补 |
| 易用性 | ⭐⭐⭐☆☆ | 整合包够友好,但本地部署吃显存 |
| 性价比 | ⭐⭐⭐⭐⭐ | Apache-2.0 全免费可商用,10B 打 80B |
| 创新性 | ⭐⭐⭐⭐☆ | 统一理解生成架构,Turbo 蒸馏到 3-4 步 |
| 稳定性 | ⭐⭐⭐☆☆ | 文生图稳,Edit 偏移、小肢体易畸形 |
| 推荐度 | ⭐⭐⭐⭐☆ | 开源党和中文场景值得装,求极致一致性观望 |
综合评分:7.8 / 10
优缺点
优势
-
参数效率惊人:10B 体量在 Qwen-Image-Bench 拿开源第一,压过 20B 的 Qwen 和 80B 的混元 -
中英文字渲染靠谱:海报招牌广告图的复杂汉字可读性强,开源里少有 -
Turbo 极速出图:3-4 步生成逼真摄影,裸模型推理可低于 1 秒 -
完全开源可商用:Apache-2.0 协议,权重代码都放出,可本地部署可微调
不足
-
Edit 一致性差:删物体、换装时人物位置景别明显漂移,需加节点补救 -
世界知识弱:地标、名人、品牌等知识覆盖远不如闭源系统 -
复杂文字仍不稳:长文本、小字号、密集排版可能出错字漏字 -
小人脸小肢体伪影:受 FLUX.1 VAE 重建损失影响,细节处易崩
适用人群
东西好不好是一回事,适不适合你又是另一回事,对号入座看看。
强烈推荐的人群:一是预算敏感、又想要可商用模型的独立开发者和小团队,Apache-2.0 免费可商用直接省掉授权成本;二是被海外模型中文乱码折磨已久的设计师和自媒体,做海报、招牌、广告图终于能少返工。
可以一试的人群:有本地显卡(哪怕只有 8GB,上 NFP4 也能跑)、喜欢折腾 ComfyUI 工作流的 AI 绘画爱好者,Turbo 极速出图很适合高频迭代创意。
建议观望的人群:对图生图一致性有严格要求的专业修图场景,Edit 当前的漂移问题会很影响效率;需要丰富世界知识、要画名人地标品牌的用户,这块差距短期难补;以及完全不想碰本地部署、只想开箱即用的纯小白。
定价方案
功能和适用人群都聊透了,最现实的问题来了,这玩意儿到底要花多少钱。
好消息是模型本身完全免费。Boogu-Image-0.1 采用 Apache-2.0 开源协议,权重和代码都已放到魔搭社区和 GitHub,你可以免费下载、本地部署、二次微调,甚至用于商业项目,唯一的成本是你的显卡和电费。
如果不想折腾本地环境,社区里也出现了第三方在线站点(如 booguimage.com)把模型包装成浏览器工作台,采用积分制,登录后有新手积分可免费体验,之后按生成量购买积分包或订阅。需要提醒的是,这类站点是第三方包装入口,并非 Boogu 官方服务,具体定价以站点实时页面为准,商用前务必核对其服务条款与模型许可。
整体算下来,对有显卡的用户,它的边际成本几乎为零,这也是开源模型最大的吸引力所在。
常见问题
看完上面这些,你心里大概还有几个没解开的疙瘩,挑高频的一次说清。
Q1:Boogu-Image-0.1 是免费的吗?可以商用吗?
A1:模型完全免费,且允许商用。 它采用 Apache-2.0 开源协议,权重和代码都已开源,可自由下载、部署、微调和用于商业项目。但若使用第三方在线站点,商用前需另行核对该站条款。
Q2:它和 Z-Image 是同一个模型吗?
A2:不是,两者是独立的开源图像模型家族。 Boogu-Image-0.1 与 Z-Image 属于相近的高效图像生成赛道,但来源不同、模型不同,官方也在致谢中将 Z-Image 列为参考对象之一。
Q3:本地部署需要多大显存?
A3:最低 8GB 显存即可起步。 8GB 用 NFP4 量化版(约 6GB),12GB 用 FP8(约 10GB),24GB 以上用 BF16(约 20GB)。注意 BF16 完整管线约 37GB,24GB 显卡也需开启 offload。
Q4:Base、Turbo、Edit 三个版本怎么选?
A4:按场景选,别贪多。 日常摄影出图和快速迭代用 Turbo(3-4 步);超过 100 字符的密集文本海报用 Base;要改图、换装、风格迁移用 Edit。后续还会有 Edit-Turbo 和 Pro 版本。
Q5:Turbo 出图到底有多快?
A5:社区实测 4 步约 14 秒一张 1024×1024。 官方称在高性能硬件上裸模型单次推理可低于 1 秒,是目前开源里速度第一梯队的水平,适合高频试错。
Q6:它的中文文字渲染真的不崩吗?
A6:明显比海外模型靠谱,但不能说完全不崩。 海报标题、招牌等中等长度文本表现稳定,但长文本、小字号、复杂版式仍可能出现错字漏字,密集文本建议用 Base 并设 2K 分辨率。
Q7:Edit 编辑老是把图改飞了怎么办?
A7:加 Flux Context 节点 + 压到 1M 像素。 Edit 默认存在物体位置和构图漂移问题。加一个 Flux Context Image 节点、先把图压到约 100 万像素再编辑,偏移可大幅改善,一致性接近主流编辑模型。
Q8:榜单第一的成绩可信吗?
A8:需要客观看待。 Qwen-Image-Bench 第一是第三方公开榜单结果,相对可信;但 Boogu Arena 是官方自建的偏好评测,并非 LM Arena 等独立平台,参考时建议结合实测和其他来源综合判断。
Q9:它的主要短板是什么?
A9:图生图一致性和世界知识。 Edit 在严格保持主体的编辑任务上仍不稳定,部分场景落后 Seedream 5.0 和 Nano Banana Pro;地标、名人、品牌等世界知识也明显弱于闭源系统。
最终建议
Boogu-Image-0.1 是开源图像赛道一个相当扎实的新选手。它用 10B 的参数证明了一件事:不靠堆规模,靠更强的理解能力和数据质量,开源模型也能在性价比上把闭源 SOTA 逼到墙角。摄影生成、中文文字渲染、Turbo 极速出图、免费可商用,这几张牌单拎出来都够硬。
谁该装它?预算有限又要商用的开发者、被中文乱码折磨的设计师、爱折腾 ComfyUI 的绘画玩家,基本闭眼入。谁该缓缓?要求图生图严格一致的专业修图场景、需要丰富世界知识画名人地标的用户、以及完全不想碰本地部署的纯小白,目前它还接不住。它是个有诚意的起点,短板也写在脸上,就看你的需求踩不踩在它的强项上。

