LLM近期重大架构进化一览：从Gemma 4到DeepSeek V4

2026-5-19 19:46:57

过去一段时间，很多人对大模型都有一个明显感受：token 总是不够用。毕竟用户想大模型更「聪明」更连贯，上下文窗口只会越来越大。尤其是在推理模型和 Agent 逐渐成为主流后，长上下文已经从一个「宣传亮点」，逐渐转变为大模型架构设计需要正面解决的问题。从 Google 的 Gemma 4，到 Poolside 的 Laguna XS.2、Zyphra 的 ZAYA1-8B，再到 DeepSeek V4，这些模型在 Transformer 内部做了各种「省钱设计」，试图围绕长上下文推理降低计算和存储成本。

圈主管理员

热门评论

该帖子评论已关闭

图片审查中...

编辑答案：我的回答：最多上传一张图片和一个附件

表情

图片

附件

取消编辑

{{userData.name}}已认证

LLM近期重大架构进化一览：从Gemma 4到DeepSeek V4

偷瞄答案

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议

{{userData.name}}已认证

LLM近期重大架构进化一览：从Gemma 4到DeepSeek V4

偷瞄答案

您还未加入该AI圈子

相似站点

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议