腾讯纯文本 LLM 训视觉 encoder,拿捏图表长视频,达到开源小模型 SOTA!

很多 VLM 最后都会回到那套熟悉配方,先拿 CLIP、SigLIP 这类通过对比学习训出来的视觉模型做 encoder,再接上 LLM 往下训 … 可一旦任务变成文档阅读、图表理解、细粒度描述、多图关系判断,甚至长视频里的时间定位,模型真正需要保住的,恰恰是那些不该太早被抹平的局部结构、空间关系和时序细节 … 也因此,Penguin-Encoder 不是简单把 LLM「拼」进视觉模块,而是以 LLM 为初始化起点,再通过面向视觉的训练,把它真正训成一个 vision encoder。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧