谷歌刚刚发布最新模型：Gemini Embedding 2，首款基于Gemini架构的完全多模态嵌入模型核心是它把文本、图 ……

2026-3-11 11:03:55

谷歌刚刚发布最新模型：Gemini Embedding 2，首款基于Gemini架构的完全多模态嵌入模型

核心是它把文本、图片、视频、音频、文档映射到统一的嵌入空间中，支持跨模态检索和分类，覆盖100+语言

还支持混合输入（比如图片+文字一起传），模型能捕捉不同媒体之间的语义关联

音频也是直接嵌入，不需要先ASR再embedding，直接吃音频出向量

统一到一个模型里，多模态数据处理流程简化多了
可用于RAG、语义搜索、情感分析、数据聚类等场景

圈主管理员

热门评论

该帖子评论已关闭

图片审查中...

编辑答案：我的回答：最多上传一张图片和一个附件

表情

图片

附件

取消编辑

{{userData.name}}已认证