字节会师何恺明!开源连续扩散语言模型Cola DLM

继何恺明之后,字节也给出了同样的回答:NO。而字节这次带来的Cola DLM(Continuous Latent Diffusion Language Model),则进一步佐证了这一趋势。他们同样选择跳出离散token的束缚,把生成过程交给连续空间,结果是: 在~2B参数、约2000 EFLOPs的严格对照实验下,Cola DLM展现出了比自回归模型和主流离散DLM更稳定的scaling趋势。字节:Token≠语义,表征才是真正的主角 事实上,真正的主角藏在这句话的后半段: Cola DLM的motivation从来不是diffusion,而是representation(表征)。

圈主 管理员

热门评论
:
该帖子评论已关闭
图片审查中...
编辑答案: 我的回答: 最多上传一张图片和一个附件
x
x