谷歌发布Gemma 4,E2B架构让手机本地跑AI现质变

新架构巧妙地在每一层中加入了嵌入表,利用查找表机制代替了繁重的全矩阵乘法计算。

以其中一款50亿参数的模型为例,在 E2B 架构的加持下,实际需要加载到 GPU 显存中的“有效参数”仅为20亿,其余30亿参数可以安全地卸载到 CPU 甚至磁盘中。

这意味着该模型仅需2GB 显存便能实现极速推理,彻底突破了移动端、智能手机和树莓派等端侧设备的部署瓶颈。

圈主 管理员

热门评论
:
该帖子评论已关闭
图片审查中...
编辑答案: 我的回答: 最多上传一张图片和一个附件
x
x