160行代码读懂LeCun的JEPA世界模型

LeCun念叨了好几年的JEPA,被160行代码给复刻了。没错,就为了让你看懂原理,把核心机制全拆了出来 代码行数从160到278不等,依赖只有PyTorch和torchvision,普通笔记本就能跑。没有EMA、没有stop-grad、没有masking,编码器和action-conditioned自回归预测器联合端到端训练。原版JEPA论文跑的是ViT-Huge在ImageNet或Kinetics上的规模,动辄几百张GPU,普通人连下载模型的带宽都不够。

圈主 管理员

热门评论
:
该帖子评论已关闭
图片审查中...
编辑答案: 我的回答: 最多上传一张图片和一个附件
x
x