一个有意思的时间线:
- 2020年:AI能看图,但只能看图
- 2022年:AI能听语音,但只能听语音
- 2023年:AI能同时看图、听语音、读文字——而且能一起理解
这个”既能看又能听还能读”的能力,叫做Multimodal(多模态)。

一句话理解
多模态(Multimodal) = 让AI同时拥有人类感知世界的多种方式——看图、听声音、读文字,并且能把这些不同类型的信息联合起来理解。
它是怎么工作的
“模态”就是信息的类型:
文字 = 一种模态
图片 = 一种模态
音频 = 一种模态
视频 = 一种模态
触觉、温度、动作……也都是模态
早期AI是”单模态”的——GPT只懂文字,图像模型只懂图片,语音模型只懂声音。它们之间不相通。
多模态AI的做法是:把所有不同类型的输入都转换成同一种”语言”——向量(Embedding)。文字变成向量、图片变成向量、声音变成向量,然后在同一个向量空间里做计算。
这就是为什么现在你可以:
- 给GPT-4V一张骨折的X光片,它能帮你写诊断报告
- 给Claude一段录音,它能总结出关键信息并回答关于录音内容的问题
- 拍一张菜品的照片,AI能告诉你怎么做这道菜
有什么用
- AI辅助医疗:看X光片、CT片、病理切片,辅助医生诊断
- 内容审核:同时分析图片、文字、视频,快速判断内容合规性
- 智能客服:用户可以发截图、语音、文字,AI全能理解
- 教育:拍一道数学题的照片,AI能逐步讲解
- 无障碍:帮助视障用户”看到”图片内容,描述给用户听
小八卦
多模态这个概念其实在2010年代就有研究,但真正爆发是在2023年。
标志性事件是2023年3月GPT-4V发布——这是OpenAI首次把视觉能力整合进GPT-4。紧接着Google发布Gemini,原生支持文本、图片、音频、视频,被认为是”最原生的多模态”。
更有意思的是,2023年底,OpenAI又发布了Sora,一个能生成视频的多模态模型——它不只是”看懂”视频,还能”创造”视频。多模态的战场,从”看懂”升级到了”创造”。
一句话总结
多模态就是让AI同时拥有多种感知能力——看图、听声音、读文字,并且在同一个向量空间里联合理解。它的出现让AI从”只会认字”进化到”像人一样感知世界”。
