这意味着,假如你手里有一块 24G 显存的消费级显卡,原本跑不动 100K 以上的长文本,用了 SeKV 方法之后可以跑接近 300K … 当文章从一万字变成十万字,缓存占用也会从几个 G 变成几十个 G,而这个增长是乘法式的增长,这就导致显卡显存的增长速度远远赶不上文本长度的增长速度 … 在本次研究之中,整个系统仅需要训练一个很小的路由模块,由此就能学到如何判断哪些段落跟当前问题相关,参数数量仅有基础模型的万分之五,在八张 A100 显卡上训练两到六个小时就可以完成,还能直接用在现有的大模型上,完全无需重新训练或者微调。

