谷歌研究院于3月26日推出全新AI内存压缩技术TurboQuant

2026-3-26 12:40:27

旨在解决AI推理过程中KV缓存占用的核心瓶颈

该技术通过PolarQuant量化方法和QJL优化手段，在无需预训练或微调的前提下，可将大语言模型缓存内存占用缩减至原来的六分之一，推理速度最高提升8倍

在对Gemma和Mistral等开源大模型的测试中，TurboQuant能将键值缓存高效压缩至3比特，并在长上下文测试中实现零精度损失

此外，在H100 GPU加速器上，4比特TurboQuant的运行速度较未量化的32比特基准提升了高达8倍。该研究成果计划在ICLR 2026会议上正式发布

圈主管理员

热门评论

该帖子评论已关闭

图片审查中...

编辑答案：我的回答：最多上传一张图片和一个附件

表情

图片

附件

取消编辑

{{userData.name}}已认证