北大与 DeepSeek 联合开源 DSpark:破解 AI 大模型高并发推理瓶颈,速度提升 60% 至 85%

今日,DeepSeek 联合北京大学正式发布 DSpark 推理加速框架,旨在解决大语言模型在高并发生产环境中的推理效率瓶颈。 该框架已部署于 DeepSeek-V4-Flash 与 DeepSeek-V4-Pro 的预览版服务引擎中,相比此前生产环境采用的单 token 推测解码基线 MTP-1,在同等吞吐量水平下可将单用户生成速度提升 60% 至 85%。相关论文、训练代码等已在 GitHub 上开源。 大语言模型生成文本时采用自回归方式,每生成一个新 token 都需要一次完整的前向传播,推理延迟随输出长度线性增长,这是目前 AI 对话系统响应偏慢的核心原因之一。

圈主 管理员

热门评论
:
该帖子评论已关闭
图片审查中...
编辑答案: 我的回答: 最多上传一张图片和一个附件
x
x