Multimodal(多模态):AI终于能”看见”和”听见”了

一个有意思的时间线:

  • 2020年:AI能看图,但只能看图
  • 2022年:AI能听语音,但只能听语音
  • 2023年:AI能同时看图、听语音、读文字——而且能一起理解

这个”既能看又能听还能读”的能力,叫做Multimodal(多模态)

Multimodal(多模态):AI终于能"看见"和"听见"了

一句话理解

多模态(Multimodal) = 让AI同时拥有人类感知世界的多种方式——看图、听声音、读文字,并且能把这些不同类型的信息联合起来理解。

它是怎么工作的

“模态”就是信息的类型:

文字 = 一种模态

图片 = 一种模态

音频 = 一种模态

视频 = 一种模态

触觉、温度、动作……也都是模态

早期AI是”单模态”的——GPT只懂文字,图像模型只懂图片,语音模型只懂声音。它们之间不相通。

多模态AI的做法是:把所有不同类型的输入都转换成同一种”语言”——向量(Embedding)。文字变成向量、图片变成向量、声音变成向量,然后在同一个向量空间里做计算。

这就是为什么现在你可以:

  • 给GPT-4V一张骨折的X光片,它能帮你写诊断报告
  • 给Claude一段录音,它能总结出关键信息并回答关于录音内容的问题
  • 拍一张菜品的照片,AI能告诉你怎么做这道菜

有什么用

  • AI辅助医疗:看X光片、CT片、病理切片,辅助医生诊断
  • 内容审核:同时分析图片、文字、视频,快速判断内容合规性
  • 智能客服:用户可以发截图、语音、文字,AI全能理解
  • 教育:拍一道数学题的照片,AI能逐步讲解
  • 无障碍:帮助视障用户”看到”图片内容,描述给用户听

小八卦

多模态这个概念其实在2010年代就有研究,但真正爆发是在2023年。

标志性事件是2023年3月GPT-4V发布——这是OpenAI首次把视觉能力整合进GPT-4。紧接着Google发布Gemini,原生支持文本、图片、音频、视频,被认为是”最原生的多模态”。

更有意思的是,2023年底,OpenAI又发布了Sora,一个能生成视频的多模态模型——它不只是”看懂”视频,还能”创造”视频。多模态的战场,从”看懂”升级到了”创造”。

一句话总结

多模态就是让AI同时拥有多种感知能力——看图、听声音、读文字,并且在同一个向量空间里联合理解。它的出现让AI从”只会认字”进化到”像人一样感知世界”。

AI百科

Vertical Model(垂直模型):为什么"全科医生"打不过"专科医生"

2026-4-23 16:03:17

AI日报

AI日报: Meta Llama 4开源发布,4000亿参数挑战闭源巨头

2026-4-6 10:41:32

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧