谷歌研究院于3月26日推出全新AI内存压缩技术TurboQuant

旨在解决AI推理过程中KV缓存占用的核心瓶颈

该技术通过PolarQuant量化方法和QJL优化手段,在无需预训练或微调的前提下,可将大语言模型缓存内存占用缩减至原来的六分之一,推理速度最高提升8倍

在对Gemma和Mistral等开源大模型的测试中,TurboQuant能将键值缓存高效压缩至3比特,并在长上下文测试中实现零精度损失

此外,在H100 GPU加速器上,4比特TurboQuant的运行速度较未量化的32比特基准提升了高达8倍。该研究成果计划在ICLR 2026会议上正式发布

圈主 管理员

热门评论
:
该帖子评论已关闭
图片审查中...
编辑答案: 我的回答: 最多上传一张图片和一个附件
x
x