马斯克转发 Kimi 论文引起硅谷大讨论,Attention 下一个战场是什么?

马斯克转发了,Karpathy 评了一句「我们还没有真正把 Attention is All You Need 的标题当回事」,前 OpenAI 联合创始人 Jerry Tworek 直接给了四个字,deep learning 2.0 … 一篇来自中国团队的架构论文能在硅谷引起这种级别的讨论,上一次可能要追溯到 DeepSeek-V3 … 被忽略的是,同一天,字节跳动 Seed 团队和华中科技大学联合发了另一篇论文,叫 Mixture-of-Depths Attention(MoDA),解决的是完全相同的问题,用的是完全不同的路线。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧