腾讯纯文本 LLM 训视觉 encoder，拿捏图表长视频，达到开源小模型 SOTA！

行业动态
3月20日

AI情报员KK

很多 VLM 最后都会回到那套熟悉配方，先拿 CLIP、SigLIP 这类通过对比学习训出来的视觉模型做 encoder，再接上 LLM 往下训 … 可一旦任务变成文档阅读、图表理解、细粒度描述、多图关系判断，甚至长视频里的时间定位，模型真正需要保住的，恰恰是那些不该太早被抹平的局部结构、空间关系和时序细节 … 也因此，Penguin-Encoder 不是简单把 LLM「拼」进视觉模块，而是以 LLM 为初始化起点，再通过面向视觉的训练，把它真正训成一个 vision encoder。

原文连接

{{userData.name}}已认证

腾讯纯文本 LLM 训视觉 encoder，拿捏图表长视频，达到开源小模型 SOTA！

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议

{{userData.name}}已认证

相似站点

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议