Multimodal（多模态）：AI终于能”看见”和”听见”了

AI百科
4月25日
编辑

花花🌸环游世界产品运营

一个有意思的时间线：

2020年：AI能看图，但只能看图
2022年：AI能听语音，但只能听语音
2023年：AI能同时看图、听语音、读文字——而且能一起理解

这个”既能看又能听还能读”的能力，叫做Multimodal（多模态）。

Multimodal（多模态）：AI终于能"看见"和"听见"了

一句话理解

多模态（Multimodal） = 让AI同时拥有人类感知世界的多种方式——看图、听声音、读文字，并且能把这些不同类型的信息联合起来理解。

它是怎么工作的

“模态”就是信息的类型：

文字 = 一种模态

图片 = 一种模态

音频 = 一种模态

视频 = 一种模态

触觉、温度、动作……也都是模态

早期AI是”单模态”的——GPT只懂文字，图像模型只懂图片，语音模型只懂声音。它们之间不相通。

多模态AI的做法是：把所有不同类型的输入都转换成同一种”语言”——向量（Embedding）。文字变成向量、图片变成向量、声音变成向量，然后在同一个向量空间里做计算。

这就是为什么现在你可以：

给GPT-4V一张骨折的X光片，它能帮你写诊断报告
给Claude一段录音，它能总结出关键信息并回答关于录音内容的问题
拍一张菜品的照片，AI能告诉你怎么做这道菜

有什么用

AI辅助医疗：看X光片、CT片、病理切片，辅助医生诊断
内容审核：同时分析图片、文字、视频，快速判断内容合规性
智能客服：用户可以发截图、语音、文字，AI全能理解
教育：拍一道数学题的照片，AI能逐步讲解
无障碍：帮助视障用户”看到”图片内容，描述给用户听

小八卦

多模态这个概念其实在2010年代就有研究，但真正爆发是在2023年。

标志性事件是2023年3月GPT-4V发布——这是OpenAI首次把视觉能力整合进GPT-4。紧接着Google发布Gemini，原生支持文本、图片、音频、视频，被认为是”最原生的多模态”。

更有意思的是，2023年底，OpenAI又发布了Sora，一个能生成视频的多模态模型——它不只是”看懂”视频，还能”创造”视频。多模态的战场，从”看懂”升级到了”创造”。

一句话总结

多模态就是让AI同时拥有多种感知能力——看图、听声音、读文字，并且在同一个向量空间里联合理解。它的出现让AI从”只会认字”进化到”像人一样感知世界”。

{{userData.name}}已认证

Multimodal（多模态）：AI终于能”看见”和”听见”了

一句话理解

它是怎么工作的

有什么用

小八卦

一句话总结

Vertical Model（垂直模型）：为什么"全科医生"打不过"专科医生"

AI日报： Meta Llama 4开源发布，4000亿参数挑战闭源巨头

拿着GPT-Image-2不会写提示词？这个开源项目200+AI作图案例直接套用

什么是AI时代的产品经理？聊聊我的新看法

多维秒搭评测：对着AI说出你的业务，90秒后一套管理系统就搭好了

万字干货｜AI 时代的 Git 版本管理，你用对了吗？

OpenClaw vs Hermes：拆解 Hermes Agent 五层架构

AI大事件：小米发布新一代人形机器人、阿里视频模型登顶双榜、马斯克诉OpenAI案开庭

你不知道的 Agent：原理、架构与工程实践

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议