LLM近期重大架构进化一览:从Gemma 4到DeepSeek V4

过去一段时间,很多人对大模型都有一个明显感受:token 总是不够用。毕竟用户想大模型更「聪明」更连贯,上下文窗口只会越来越大。尤其是在推理模型和 Agent 逐渐成为主流后,长上下文已经从一个「宣传亮点」,逐渐转变为大模型架构设计需要正面解决的问题。从 Google 的 Gemma 4,到 Poolside 的 Laguna XS.2、Zyphra 的 ZAYA1-8B,再到 DeepSeek V4,这些模型在 Transformer 内部做了各种「省钱设计」,试图围绕长上下文推理降低计算和存储成本。

圈主 管理员

热门评论
:
该帖子评论已关闭
图片审查中...
编辑答案: 我的回答: 最多上传一张图片和一个附件
x
x