Qwen3.7-Max 深度评测：Agent 时代，阿里端出了真正的旗舰

35 小时写了一个 GPU 内核驱动，加速比 10 倍。这不是科幻，是 Qwen3.7-Max 长周期自主执行实验的真实结果。阿里云峰会上刚发布的这个新旗舰，编程智能体、高难度推理、办公自动化三项维度全面超越 Claude Opus 4.6，Arena 全球总榜国产第一。但闭源、API 还没上线、价格也不透明。到底能不能打，上手再说。

这是什么模型

Qwen3.7-Max 是阿里巴巴通义千问团队在 2026 年 5 月 20 日阿里云峰会上发布的全新旗舰大模型。一句话定位，面向智能体时代的全能基座。它不是聊天机器人，不是写作助手，而是一个能自主编程、长周期执行任务、跨框架稳定运行的 Agent 底层引擎。

和前代 Qwen3.6 系列相比，这次升级不是挤牙膏。Arena 全球大模型盲测总榜中，Qwen3.7-Max 拿下国产第一，综合排名进入全球前三。阿里千问这次瞄准的对手很明确，Claude Opus 4.6。

模型是闭源的，仅通过阿里云百炼 API 对外提供服务。但好消息是它同时兼容 OpenAI 和 Anthropic 两种协议，已有的工具链基本不用改就能切过来，生态迁移成本几乎为零。

官网：https://chat.qwen.ai

Qwen3.7-Max 深度评测：Agent 时代，阿里端出了真正的旗舰

到底强在哪

Benchmark 数据亮得有点不真实，那我们挑几个最能打的领域，看它到底凭什么敢叫板 Claude。

编程智能体：多项登顶

编程能力是这次升级最硬核的部分。Qwen3.7-Max 在 SWE-Pro（软件工程）、SWE-Multilingual（多语言编程）、SciCode（科学计算）、Terminal-Bench 2.0（终端智能体）四个编程 Agent 核心基准上，全部领先或持平 Claude Opus 4.6。

Benchmark	Qwen3.7-Max	Claude Opus 4.6	DeepSeek V4 Pro
SWE-Pro	60.6	57.3	59.0
SWE-Multilingual	78.3	77.5	76.2
SciCode	53.5	51.9	—
Terminal-Bench 2.0	69.7	65.4	67.9
SWE-Verified	80.4	80.8	—

全链路编程任务，从原型到复杂工程，几乎每个维度都在咬住甚至反超 Opus 4.6。SWE-Verified 只差 0.4 分，在可感知的误差范围内基本持平。

高难度推理：GPQA Diamond 登顶

Qwen3.7-Max 在推理领域的表现更让人意外。GPQA Diamond 得分 92.4，超越 Claude Opus 4.6 的 91.3。HMMT 2026 Feb 数学竞赛 97.1 分，IMOAnswerBench 拿到 90.0 分，这两个都是纯推理任务，几乎没有知识记忆的加成空间。

更重要的是 Apex 基准，这是目前最难的综合性推理测试，44.5 分的成绩比 DeepSeek V4 Pro 的 38.3 高出 6.2 分，比自家前代的 8.8 分提升了足足 5 倍。

Qwen3.7-Max 深度评测：Agent 时代，阿里端出了真正的旗舰

长周期自主执行：35 小时硬核实测

说千道万不如跑一个真实任务。阿里千问团队做了一个极端的压力测试，让模型在一个完全没见过的硬件平台（平头哥真武 M890 PPU）上，仅凭指令手册和 SGLang 框架，从零写出 GPU 内核驱动并进行性能优化。

整个过程持续了约 35 小时，模型自主完成了 432 次内核调用、1158 次工具调用，包括写代码、性能分析、Bug 修复、反复迭代。最终产出的内核代码加速比达到 10 倍。作为对比，同在 M890 硬件上，GLM 5.1 的加速比只有 7.3 倍，Kimi K2.6 是 5.0 倍，DeepSeek V4 Pro 只有 3.3 倍。

更关键的一个细节是：30 小时后模型依然在发现有意义的优化方向。没有卡死，没有退化，反而越跑越聪明。对于需要长时间自主运行的企业级任务来说，这是比 Benchmark 分数重要得多的能力指标。

跨框架和办公自动化

Qwen3.7-Max 的另一点差异化是跨框架泛化。它不针对某个特定 Agent 框架做优化，在 Claude Code、OpenClaw、Qwen Code 以及各类自定义框架下表现都很稳定。MCP-Mark 通用 Agent 基准 60.8 分，MCP-Atlas 76.4 分，都超过了 Opus 4.6。

办公自动化方面同样强势。SpreadSheetBench-v1 拿到 87 分，在论文格式自动修复、文档批处理等办公任务上表现突出。YC-Bench 创业模拟场景中，它在虚拟经营里做到了 208 万美元营收，是 Qwen3.6 的两倍、Qwen3.5 的近六倍。

从零开始试

说了这么多参数，用起来到底什么感觉？我通过 Qwen Chat 在线版完整跑了一遍典型路径。

入口是 chat.qwen.ai，网页版直开，不用下载客户端。界面比之前干净了不少，核心区只有一个对话框和模型选择下拉菜单。选到 Qwen3.7-Max 后，我先丢了一个典型需求进去：用 Three.js 写一个可交互的 3D 粒子星系，带鼠标拖拽旋转和缩放。大概等了十几秒，前端代码一次性输出，HTML、CSS、JS 全在同一个文件里。复制粘贴跑起来之后，旋转流畅，缩放灵敏，粒子颜色还是渐变的。第一印象不错。

Qwen3.7-Max 深度评测：Agent 时代，阿里端出了真正的旗舰

接着试了一把多文件工程任务。让它分析一个开源 Python 项目的代码结构，给出重构建议。模型先拉出了模块依赖树，然后逐个文件标注了循环依赖和可以拆分的函数。输出格式是带行号的 diff，直接贴进编辑器就能用。

槽点也有。思考模式下的首字响应时间不太稳定，简单任务偶尔也要等好几秒。而且目前 Qwen Chat 上只能跑纯文本交互，像终端命令执行、文件系统访问这些真正的 Agent 能力得通过 API 接到 Claude Code 或 OpenClaw 才能发挥出来。

进阶玩法

基础操作不复杂，但有些用法你不仔细试根本发现不了，这几个是我跑了一整天之后觉得最有价值的：

preserve_thinking 模式：在 API 调用时加一个参数，模型在多轮对话中会保留所有前序轮次的思考链。对于 Agent 长链路任务，比如分 10 步部署一个 Kubernetes 集群，每一步都能看到前面的推理过程，中间不会被上下文截断打乱。这个功能目前只有通过 API 才能启用，网页版还不支持。
Claude Code 配百炼端点：把 ANTHROPIC_MODEL 环境变量设成 qwen3.7-max，ANTHROPIC_BASE_URL 指向百炼的 Anthropic 兼容端点，Claude Code 底层就跑 Qwen3.7-Max 了。对已经用 Claude Code 的团队来说，切换成本就是改两行配置。实测编程表现和原生 Claude Code 的差距已经很小。
OpenAI 协议直调：如果团队用的是标准的 OpenAI SDK，直接把 base_url 换成百炼兼容端点、model 设成 qwen3.7-max 就行。不需要装任何新 SDK。这个兼容性意味着大多数 AI 应用几乎可以零成本切换。
YC-Bench 玩法：启动一个模拟经营场景，让模型跨数百轮做商业决策。它会自动保存之前的经营数据、识别策略盲区、在后续轮次修正方向。对需要长期策略规划的团队来说，这比静态问答的效果好得多。

和同类比怎么样

参数上没输过，那放到真实赛道和竞品一块儿看，到底谁更值得选。

大模型旗舰赛道现在基本是四家混战，Claude Opus 4.6、DeepSeek V4 Pro、GLM 5.1、Kimi K2.6。Qwen3.7-Max 这次发布直接奔着 Opus 去的。

维度	Qwen3.7-Max	Claude Opus 4.6	DeepSeek V4 Pro	GLM 5.1
编程 Agent	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
高难度推理	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
长周期自主执行	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐
跨框架稳定性	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐
生态兼容性	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐
前端开发	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐
中文本土化	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐

核心差异在于两点。一是编程 Agent 的全面性，Qwen3.7-Max 是目前唯一在几乎所有编程基准上同时咬住或反超 Opus 4.6 的模型，不是单项爆种。二是跨框架泛化，Opus 4.6 在不同框架下的表现有波动，而 Qwen3.7-Max 在 Claude Code、OpenClaw、Qwen Code 三个主流框架上的成绩几乎持平。这种一致性对企业来说意味着切换框架时不需要重新评估模型能力。

但前端开发是 Qwen3.7-Max 的短板。QwenWebDev 评分 1568，低于 Opus 4.6 的 1617 和 GLM 5.1 的 1605。如果你的主要场景是前端页面生成，Opus 或者 GLM 可能更合适。

真实用户怎么说

成绩好看归好看，来看一波实际用过的人怎么评价。发布会刚开一天，但各大技术社区已经热闹起来了。

社区里最热烈的讨论集中在长周期自主执行实验上。不少开发者被 35 小时、1158 次工具调用、10 倍加速这些数字震撼到了，“以前觉得 Agent 过五个来回就会崩，这次连跑一天半还在进化”。知乎上有开发者实测后表示，编程 Agent 确实在 SWE-Pro 级别任务上跟 Opus 4.6 打平了，尤其在多文件重构场景里表现很稳。

吐槽的声音主要集中在两点。一是 API 还没正式上线，发布会开了、成绩公布了，但想接入的开发者暂时只能看不能用，有点干着急。二是价格完全没谱。旗舰模型的推理成本通常不低，加上 Qwen3.7-Max 在思考模式下的 token 消耗量可能更大，社区普遍担心开放后的定价”不够亲民”。知乎上有用户直言，速度和价格可能是选型时的最大障碍。

多维评分

评价有赞有踩，那从专业维度拉一个量化的分。

维度	评分	一句话解读
功能完整性	⭐⭐⭐⭐⭐	Agent 全链路能力覆盖，编程到办公一应俱全
易用性	⭐⭐⭐⭐☆	API 兼容双协议很友好，但网页版能力受限
性价比	⭐⭐⭐☆☆	定价未公布，旗舰模型推理成本预计偏高
创新性	⭐⭐⭐⭐☆	跨框架泛化和 35h 长周期实验是真正差异化
稳定性	⭐⭐⭐⭐☆	多框架表现一致性优秀，部分场景响应有波动
推荐度	⭐⭐⭐⭐☆	Agent 开发者和科研团队值得第一时间接入

综合评分：8.3 / 10

优点和槽点

优势

编程 Agent 全面领先：四项编程核心基准全部持平或超越 Claude Opus 4.6，全链路覆盖完整
长周期自主执行能力惊人：35 小时/1158 次工具调用的实测数据，远超所有国产竞品
跨框架泛化不绑定生态：Claude Code、OpenClaw、Qwen Code 三大框架下表现一致稳定
高难度推理多项登顶：GPQA Diamond、HMMT、Apex 全面突破，推理能力达到全球第一梯队
API 双协议兼容：同时兼容 OpenAI 和 Anthropic 协议，现有工具链几乎零成本迁移

不足

闭源且不可本地部署：无法私有化部署或自定义微调，对数据安全要求高的场景不适合
API 尚未正式上线：发布后接入延迟，想用的团队暂时只能等
定价完全未知：作为旗舰模型推理成本可能偏高，性价比无法提前评估
前端开发生成非强项：QwenWebDev 评分略低于 Opus 和 GLM，纯前端场景建议看其他选项

适合谁用

一句话概括，Qwen3.7-Max 是给需要 Agent 能力的人准备的，不是给所有人准备的。

AI Agent 开发者：编程智能体各项表现已经跟 Claude Opus 4.6 打平甚至反超，Claude Code 两行配置就能切过来。对于已经在做复杂编程 Agent 的团队，这是目前最有性价比的国产替代方案。
企业办公自动化团队：MCP-Mark 和 MCP-Atlas 成绩优秀，跨框架一致性也好。如果你的团队在用 MCP 做企业流程自动化，Qwen3.7-Max 的多 Agent 编排和长周期执行能力会让你省掉很多中间件。
科研和数学场景：GPQA Diamond、HMMT、Apex 成绩摆在那。做高难度推理、数学竞赛、科学计算的话，这是目前国产模型里唯一能在推理维度跟 Opus 正面打的产品。
长周期任务场景：GPU 内核优化、RL 训练监控、代码仓库级重构，这些需要模型连续运转几十小时的任务，Qwen3.7-Max 用实测数据证明了它不是跑一两个小时就崩的玩具。
嫌贵劝退的：如果你只是日常写写代码、改改 Bug、写写文档，Qwen3.7-Plus 甚至 DeepSeek V4 完全够用，没必要冲着旗舰多花钱。前端开发为主的团队也更建议看看 GLM 5.1。

多少钱

最让人纠结的部分来了，Qwen3.7-Max 的具体定价还没公布。目前只能通过阿里云百炼平台申请 API 接入权限，正式定价以官方后续公告为准。

从系列定位判断，Qwen3.7-Max 是闭源旗舰，推理成本预计不会低。Qwen3.6-Max 的 API 价格在当时就不算便宜，3.7 版加了更强的思考模式和更长上下文，token 消耗量大概率更大。如果预算紧张，Qwen3.7-Plus 或者 Qwen3.7-Flash 可能是更务实的选择，前者日常任务够用，后者适合高吞吐低成本场景。

版本	定位	预估价格	适合场景
Qwen3.7-Max	旗舰	预计较高	Agent、长周期推理、科研
Qwen3.7-Plus	中端	待公布	日常开发、办公自动化
Qwen3.7-Flash	轻量	最低	高并发、低成本场景

等价格出来之后，性价比这块才能下最终结论。现在只能说，能力没毛病，就看你舍不舍得为它花钱了。

常见问题

看完这么多数据，你可能还有几个关键问题想搞清楚。

Q1：Qwen3.7-Max 开源吗？

A1：不开源，闭源旗舰模型。 仅通过阿里云百炼 API 对外提供服务，无法本地部署或自定义微调。如果对数据安全有强要求或需要私有化部署，建议等开源版本或看其他选项。

Q2：API 能用了吗？价格多少？

A2：尚未正式上线，定价未公布。 模型于 5 月 20 日发布，API 即将通过阿里云百炼上线。定价以官方公告为准。基于旗舰定位判断，推理成本不低，建议提前评估用量。

Q3：跟 Claude Opus 4.6 比到底谁强？

A3：综合打平甚至略胜，但各有擅长。 编程 Agent、高难度推理、长周期自主执行维度 Qwen3.7-Max 领先。前端开发和 SWE-Verified 维度 Opus 略好。选哪个取决于你的核心场景。

Q4：能在 Claude Code 里用吗？

A4：可以，两行配置搞定。 设置环境变量 ANTHROPIC_MODEL=qwen3.7-max 和 ANTHROPIC_BASE_URL 指向百炼 Anthropic 兼容端点，Claude Code 底层就跑 Qwen3.7-Max 了。

Q5：是否兼容 OpenAI SDK？

A5：完全兼容。 base_url 换成百炼兼容端点、model 设成 qwen3.7-max 即可，不需要装新 SDK。openai-python 和 langchain 等主流框架都直接支持。

Q6：35 小时长周期实验是怎么做的？

A6：在完全未训练的硬件上从零写内核驱动。 模型拿到指令手册后，自主完成 432 次内核调用和 1158 次工具调用，连续运行 35 小时并在 30 小时后仍发现新优化方向，最终加速比 10 倍。

Q7：中文本土化表现如何？

A7：国内模型天然优势。 多语言编程基准 SWE-Multilingual 成绩第一，中文理解深度远超 Claude 和 DeepSeek。中文场景的办公自动化、文档处理等任务有天然加分。

Q8：前端开发适合用 Qwen3.7-Max 吗？

A8：不是强项，但不差。 QwenWebDev 评分 1568，略低于 Opus 4.6 的 1617 和 GLM 5.1 的 1605。如果主要场景就是写前端页面，Opus 或 GLM 可能更适合。

Q9：相比之下 Qwen3.7-Plus 值得用吗？

A9：日常开发更务实的选择。 如果不需要极致的 Agent 长周期能力和高难度推理，Plus 版性价比大概率更高。Max 是给重度 Agent 场景准备的，不是给日常用的。

Q10：和 DeepSeek V4 Pro 怎么选？

A10：Max 在 Agent 和推理维度碾压，V4 Pro 生态更成熟。 如果你看重编程 Agent 和长周期自主执行能力，Qwen3.7-Max 明显更强。如果已经深度绑定了 DeepSeek 生态且对价格敏感，V4 Pro 依然是稳妥选择。

最后总结

Qwen3.7-Max 不是一台”更好用的 AI 聊天机器人”，它是一个严肃的 Agent 基座。阿里这次没有走”参数更大、分数微涨”的老路，而是用 35 小时的长周期实测和跨框架一致性证明了一点：在 Agent 时代，国产大模型可以跟 Claude 正面打，并且打赢。

对于认真做 AI Agent 的团队，Qwen3.7-Max 是目前国产模型里最值得接入的选择。对于日常开发者，不用着急，等价格出来、生态成熟了再看也不迟。对于只做前端的团队，可能得再等等。

建议所有对 Agent 方向有投入的团队，价格公布后第一时间试用。就目前公开的数据来看，这东西值得等。

{{userData.name}}已认证

Qwen3.7-Max 深度评测：Agent 时代，阿里端出了真正的旗舰

这是什么模型

到底强在哪

编程智能体：多项登顶

高难度推理：GPQA Diamond 登顶

长周期自主执行：35 小时硬核实测

跨框架和办公自动化

从零开始试

进阶玩法

和同类比怎么样

真实用户怎么说

多维评分

优点和槽点

优势

不足

适合谁用

多少钱

常见问题

最后总结

Feedly 评测：从 RSS 阅读器到 AI 情报平台，它到底值不值？

C2PA 测评：给数字图像装上“可验证的身份证”

daily_stock_analysis ：散户的 AI 投研平替还是又一个噱头

Anthropic 的 Theme Factory 是怎么把“视觉一致性”做成一条指令的

一句话让 Codex 生成轻量动画动效，上传SVG也能出动效！

烧了10亿Token，我做了一个Markdown编辑器，开源免费

mcp-integration：Anthropic 把这个流程做成了一个 Skill

从AI Coding到Harness Engineering的端到端工程开发实践

codebase-memory-mcp：2026 年最”反常识”的 AI 工具

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议