Gemini 3.5 Flash 测评：当 Flash 系列开始干翻旗舰，谷歌的 Agent 时代来了

写个复杂 Agent 还要等几十秒才能动？Gemini 3.5 Flash 把输出速度干到了 280+ token/秒，直接是 GPT-5.5 和 Claude Opus 4.7 的 4 倍。在编码和智能体基准上，它甚至反过来碾压了自家上一代旗舰 Gemini 3.1 Pro。$1.5 的输入价格、90% 的缓存折扣、默认开启的 Thinking 模式，这个 Flash 系列新王，把”快”和”强”绑在了一起。上手试了一圈，有个感受特别强烈：Flash 和 Pro 的边界，正在被它亲手抹掉。

这到底是什么

5 月 19 日，谷歌在 I/O 2026 上正式发布了 Gemini 3.5 Flash。这是 Gemini 3.5 系列的首个公开模型，由 Google DeepMind 出品，定位极为明确，把旗舰级别的 Agent 和编码能力塞进 Flash 系列一贯的低延迟、低成本框架里。截至发布时，Gemini 应用月活已突破 9 亿，3.5 Flash 直接成为 Gemini 应用和 Google 搜索 AI 模式的默认模型。

官网：https://gemini.google.com/app

Gemini 3.5 Flash 测评：当 Flash 系列开始干翻旗舰，谷歌的 Agent 时代来了

传统上，Flash 系列一直是”性价比之选”，Pro 系列才是性能担当。但这次 3.5 Flash 打破了这条分界线：在 Terminal-Bench 2.1（76.2%）、MCP Atlas（83.6%）、GDPval-AA（1656 Elo）等 Agent 评测中，它全面碾压 3.1 Pro。输出速度快 4 倍、成本不到三分之二，却交出了多数维度更强的成绩单。

到底强在哪

说了一堆概念，那它到底能干什么？我梳理下来，3.5 Flash 的能力可以拆成四个核心层面。

首先是 Agent 任务执行。这是 3.5 Flash 最猛的地方，多步工具调用、子 Agent 编排、长周期自动化。Shopify 用它做并行子 Agent 分析全球商家增长数据，Macquarie Bank 用它处理上百页的金融文档。谷歌还推出了 Managed Agents，一个 API 调用就能启动带隔离 Linux 环境的完整 Agent。

其次是速度。输出 280+ token/秒是什么概念？GPT-5.5 写完一句话的时间，3.5 Flash 已经输出了一整段。这意味着在需要大量往返的 Agent 场景里，等待感几乎消失，4 倍的速度差在多次调用中会累积成数量级的效率提升。

然后是 1M 上下文。100 万 token 的输入窗口 + 64K 输出，配合 90% 的缓存折扣，处理长文档时的成本优势极其明显。不过 MRCR v2 128K 的召回率（77.3%）低于 3.1 Pro（84.9%），说明窗口满了之后细节抓取有退化。

最后是 多模态理解。支持文本、图像、音频、视频输入，在 CharXiv Reasoning（84.2%）和 MMMU-Pro（83.6%）上表现亮眼。但注意，只有文本输出，还不能直接生成图片或视频。

上手体验

数据看了不少，实际注册用起来更直观。如果你用过 Gemini，这就是无缝升级，浏览器打开 gemini.google.com 或者 Google AI Studio，Google 账号登录，模型默认就是 3.5 Flash。不用配什么参数，直接打字就行。

我第一个试的是编程场景：给它一个 Vue 3 组件需求，让它写出来。第一轮大概是 3 秒出响应，然后持续输出代码，每秒能看到大量字符涌入。几分钟写完了一个带状态管理和 API 调用的完整组件，确实跟发布会上说的”把数天的工作压缩成几小时”对得上。

不过也不是没槽点。在 AI Studio 里直接配 Managed Agents 还是有一些门槛的，文档写得不算友好，新手可能要翻好几个页面才能找到 Agents 入口。免费版有速率限制，高频测试时偶尔会触发节流，需要耐心等一会儿才能继续问。

Gemini 3.5 Flash 测评：当 Flash 系列开始干翻旗舰，谷歌的 Agent 时代来了

进阶玩法

基础能力已经很能打，但用好它还有一些偏方：

Antigravity 2.0：很多人不知道谷歌出了一个桌面 Agent 编排工具。下载后可以在本地启动并行子 Agent，让不同的 Agent 同时处理调研、编码、测试，最后汇总结果，效率直接翻倍。
缓存策略最大化：输入缓存 90% 折扣是 3.5 Flash 被低估的省钱利器。如果你在做长流程 Agent 任务，把共享上下文（系统指令、背景文档）设计为一次性写入，后续每次调用只需 $0.15/1M 的缓存价。高频场景下成本能压到原来的十分之一。
Managed Agents 的环境持久化：创建一次 Agent 实例后，环境状态可以持续保留。你可以在一次对话中完成”调研→写代码→测试→部署”全流程，Agent 不会因为上下文超出窗口而失忆。
搜索即工具：3.5 Flash 内置了 Google 搜索能力，可以在推理过程中自动搜实时信息。对于需要最新数据的场景（比如今日股价、政策更新），这个功能省去了手动喂资料的麻烦。

竞品对比

当 Flash 系列开始在 Agent 赛道领跑，其他旗舰模型也坐不住了。来直接看硬碰硬的对比：

对比维度	Gemini 3.5 Flash	GPT-5.5	Claude Opus 4.7
输出速度	280+ token/s	约 70 token/s	约 70 token/s
Input 价格	$1.50/1M tokens	约 $2.50/1M tokens	约 $3.00/1M tokens
上下文窗口	1M tokens	待确认	200K tokens
Agent 能力	最强（多项 Agent 榜单第一）	强	强
缓存折扣	90%（$0.15/1M）	无或较低	无或较低

这张表最扎眼的就是速度。4 倍的差距在单次调用中可能只是”快一点”，但在 Agent 任务里（一次任务几十上百次调用），就是”天壤之别”。谷歌把效率和能力强行绑在一起，这让 3.5 Flash 在性价比上建立了明显的护城河。

Gemini 3.5 Flash 测评：当 Flash 系列开始干翻旗舰，谷歌的 Agent 时代来了

用户口碑

刚发布一天，技术社区已经炸开了锅。Reddit 和 Twitter 上讨论度相当高，情绪以正面为主但也有清醒的声音。

“以前 Flash 系列我都是当玩具用的，这次 3.5 Flash 是真的能打。”，很多开发者用这句话表达了惊讶。SWE-Bench 55.1%、Terminal-Bench 76.2% 这些分数，加上编码任务中 4 倍的速度，确实让不少人改变了看法。有人甚至说这是”谷歌今年最值得关注的模型，没有之一”。

吐槽的声音集中在两个方面。一个是纯抽象推理，HLE 40.2%（低于 3.1 Pro 的 44.4%）、ARC-AGI-2 72.1%（低于 3.1 Pro 的 77.1%），在需要深层逻辑的硬推理任务上不如自己的上一代旗舰。另一个是”自汇报”争议，谷歌公布的所有分数都是内部测试结果，外界还没完成独立复现。不过先例来看，谷歌的分数缩水幅度通常不大。

综合打分

分数归分数，从实际使用感受出发，我给 Gemini 3.5 Flash 打出了以下评分：

维度	评分	一句话解读
功能完整性	⭐⭐⭐⭐⭐	Agent + 编码 + 多模态，覆盖面全
易用性	⭐⭐⭐⭐☆	Gemini 端零门槛，AI Studio 略有门槛
性价比	⭐⭐⭐⭐⭐	4 倍速度+缓存折扣，同档位无敌
创新性	⭐⭐⭐⭐⭐	Flash 超 Pro，Agent 优先架构
稳定性	⭐⭐⭐⭐☆	刚上线，长上下文召回待验证
推荐度	⭐⭐⭐⭐⭐	开发者和 Agent 场景首选

综合评分：9.2 / 10

优点和槽点

优势

Agent 能力断层领先：多步推理、工具调用、子 Agent 编排，多项 Agent 榜单第一
速度+成本双重碾压：4 倍输出速度、缓存 90% 折扣、输入 $1.5/1M
1M 超长上下文：配合持久化 Agent 环境，适合长周期复杂任务
生态整合完善：Gemini 应用、AI Studio、Antigravity、Vertex AI 全线打通

不足

纯推理上限不及 Pro：HLE 和 ARC-AGI-2 落后 3.1 Pro，硬逻辑场景需等待 3.5 Pro
密集长上下文召回退化：MRCR v2 128K 召回率 77.3% 低于 Pro 的 84.9%
仅文本输出：不支持图片或视频生成，多模态输出缺失
自汇报分数待验证：所有分数为 Google 内部测试，独立复现结果尚未公开

适合谁用

产品和定价都看完了，那它到底最适合哪些人？

AI 应用开发者：3.5 Flash 的 Managed Agents 和 Antigravity 2.0 让构建复杂 Agent 变得简单，一个 API 就能启动带隔离环境的完整 Agent。对于需要高频调用的编码 Agent、自动化工作流的团队，速度和成本优势能直接转化为生产力。
需要 Agent 自动化的企业团队：Shopify、Macquarie Bank、Xero、Databricks 已经成为第一批企业用户。如果你团队有大量需要”调研→分析→执行”的长周期工作流，3.5 Flash 可以把数天压缩到几小时。
高频 API 调用场景的开发者：预算敏感但需要高质量输出的场景，3.5 Flash 的定价在同档位没有对手。如果每天 API 调用量在百万 token 级别，对比 GPT-5.5 或 Claude Opus 4.7，每月能省 40-60% 的费用。
不太适合的人：如果你需要深度推理性的一问一答，或者依赖超密集长上下文召回，建议等 3.5 Pro 出来再做判断。目前 3.5 Flash 在这两个维度上不及 3.1 Pro。

定价方案

产品和用户需求对上了，来看看钱包受不受得了：

定价项	全球价格	其他地区
输入	$1.50/百万 token	$1.65/百万 token
输出	$9.00/百万 token	$9.90/百万 token
缓存输入	$0.15/百万 token	$0.165/百万 token

作为参考，前代 Gemini 3 Flash Preview 的定价是 $0.50/$3/百万 tokens，3.5 Flash 是其 3 倍。但它比 Gemini 3.1 Pro（$2.50/$15）便宜 40%。缓存 90% 折扣是真正的核心优势，在 Agent 场景中共享上下文是常态，这会让高频用户的实际成本比表面价格低得多。Gemini 应用端仍然免费可用，适合先体验后付费。

常见问题

Q1：Gemini 3.5 Flash 完全免费吗？

A1：Gemini 应用端免费可用，但 API 调用需要付费。 Gemini 对话界面直接用 Google 账号登录就行，没有任何使用费。但如果要通过 API 集成到自己的应用中，按量计费：输入 $1.50/百万 token，输出 $9.00/百万 token。

Q2：3.5 Flash 的中文能力怎么样？

A2：中文理解流畅，但发布当天还没有专门的中文基准数据。 实测下来，中文编码、文档总结、日常对话都没有明显问题。谷歌在训练数据中包含了大量中文语料，整体感觉和其他主流英文模型的中文水平相当。

Q3：它支持生成图片吗？

A3：不支持。3.5 Flash 只能输出文本。 它确实能理解图像输入（分析图表、看懂截图），但输出模态目前只有文字。如果需要生成图片，可以配合谷歌的 Image Gen 能力或者第三方工具。

Q4：跟 3.1 Pro 比，到底哪个更强？

A4：看场景。Agent 和编码任务 3.5 Flash 更强，抽象推理和长上下文召回 3.1 Pro 更好。 谷歌的定位很明确：Agent 优先场景选 3.5 Flash，纯推理或密集文档分析等 3.5 Pro 出来再做决定。

Q5：缓存折扣到底省多少？

A5：缓存输入的定价只有正常输入的 10%——$0.15 对比 $1.50/百万 token。 如果你在做长上下文 Agent 任务，把共享 Prompt 和背景文档设计为缓存命中，成本能降到原来的十分之一。对于日调用量大的团队，这是最大的省钱杠杆。

Q6：结果能商用吗？

A6：可以商用。谷歌的 Gemini API 服务条款允许将模型输出用于商业用途。 具体来说，通过 API 生成的内容版权归用户所有，但需要遵守谷歌的可接受使用政策，不能用于生成违法或有害内容。

Q7：知识截止到什么时候？

A7：知识截止日期为 2026 年 1 月。 如果需要查询更新信息，可以使用内置的 Search-as-a-tool 功能让模型自动联网搜索实时数据。

Q8：需要下载安装吗？

A8：不用。网页端登录 gemini.google.com 即可使用。 开发者可以用 Google AI Studio 或 API 直接调用。如果想要桌面端体验，可以下载 Antigravity 2.0 来做 Agent 编排。

Q9：免费版有哪些限制？

A9：有速率限制。免费 tier 的 API 调用频率和 token 量受限制。 在 Gemini 应用中使用时还没有明显限额，但高频测试可能在 AI Studio 中触发节流措施。如果生产环境需要高并发，建议升级到 Standard 或 Priority tier。

Q10：3.5 Flash 是什么时候发布的？

A10：2026 年 5 月 19 日，在 Google I/O 2026 大会上正式发布。 同日面向全球开放，没有 Preview 阶段，直接 GA。模型 ID 为 gemini-3.5-flash，内部快照版本为 3.5-flash-05-2026。

最后的结论

Gemini 3.5 Flash 是一个打破常规的模型，它把本该属于 Pro 系列的 Agent 和编码能力塞进了 Flash 的定价体系里。速度 4 倍碾压、Agent 榜单全面登顶、1M 上下文配合 90% 缓存折扣，这让它在高频调用的生产场景中很难被替代。

如果你靠 API 吃饭，3.5 Flash 值得成为第一默认选项。但纯推理深度不够和长上下文召回退化这两刀，砍得也很精准，硬核推理党，还是再等等 3.5 Pro。

{{userData.name}}已认证

Gemini 3.5 Flash 测评：当 Flash 系列开始干翻旗舰，谷歌的 Agent 时代来了

这到底是什么

到底强在哪

上手体验

进阶玩法

竞品对比

用户口碑

综合打分

优点和槽点

优势

不足

适合谁用

定价方案

常见问题

最后的结论

ArtStation 深度评测：全球创意人的“职业护照”够不够硬？

阿里QoderWork测评：桌面AI战争打响，这款国产智能体凭什么站上牌桌

daily_stock_analysis ：散户的 AI 投研平替还是又一个噱头

Anthropic 的 Theme Factory 是怎么把“视觉一致性”做成一条指令的

一句话让 Codex 生成轻量动画动效，上传SVG也能出动效！

烧了10亿Token，我做了一个Markdown编辑器，开源免费

mcp-integration：Anthropic 把这个流程做成了一个 Skill

从AI Coding到Harness Engineering的端到端工程开发实践

codebase-memory-mcp：2026 年最”反常识”的 AI 工具

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议