刚刚,阿里正式发布新一代图像生成与编辑统一模型 Wan2.7-Image,一举将文生图、图生组图、图像指令编辑和交互式编辑整合进同一套模型架构 … 新模型主打四大能力:可自由定制五官骨相的「千人千面」捏脸功能、能精准提取和控制色彩配比的「调色盘」功能、最高支持 3K token 超长文字渲染的印刷级排版能力,以及支持框选区域精准操作的像素级交互式编辑能力 … 在模型架构上,Wan2.7-Image 采用生成与理解统一的模型架构,在共享隐空间(Latent Space)内实现语义映射 —— 文字紧挨着画面,模型不需要费力推断文字对应的画面区域。
暂无讨论,说说你的看法吧

