针对这个问题,由李飞飞领导的斯坦福大学研究团队提出了 GPIC(Giant Permissive Image Corpus), 收录约 1 亿对图文,总计近 28 万亿像素,试图为视觉生成研究提供一套更透明、可复现的公共基准 … GPIC 是一个面向视觉生成的大规模宽许可图像数据集,其构建流程包括数据源筛选、图像过滤、去重和字幕生成 … 图像过滤:研究团队先去掉尺寸太小、长宽比异常,或最长边不到 256 像素的图像,再用视觉语言模型 Qwen3-VL-4B-Instruct 去除近白、近黑、严重模糊、过曝和欠曝等低质量图像,并筛除潜在不安全内容。

