一个Banana不够,再来一个!
谷歌DeepMind以Nano Banana Pro为底座,最新发布通用版香蕉通用多模态视觉大模型Vision Banana
证明图像生成预训练,可以成为通用视觉学习的统一范式。
一个通用模型,零样本迁移下,击败SAM 3、Depth Anything 3等专用模型,分割、深度、法线核心任务刷新多项SOTA。
就像LLM用文本生成统一所有NLP任务一样,视觉领域的LLM时刻,可能真的来了。
领域正发生重大变革,Vision Banana将彻底改写这类视觉问题的解决方式。


