MiniMax M3 评测:技术硬刚全球顶尖,商业化却让开发者炸了

一个开源模型,自己读论文、写代码、跑实验,全程搞了 12 个小时,把一篇 ICLR 顶会论文成功复现了。这就是刚发布的 MiniMax M3,三项前沿能力集于一身,评测分数直接干翻了 Claude Opus 4.7。但开发者社区的反应却炸了锅,不是因为能力不行,而是定价策略在发布当天翻了车。

这是什么模型

MiniMax M3 是稀宇科技在 2026 年 6 月 1 日发布的新一代旗舰大模型。它的核心定位很直接,国内首个同时具备前沿编码能力、百万 token 超长上下文和原生多模态的模型。跟市场上大多数大模型不同,M3 不是在某一个维度上跟风,而是在编程、Agent 自主执行和多模态三条赛道上同时发力。

MiniMax 算不上大模型赛道的新玩家,此前 M1、M2 系列已经在开发者群体里积累了一定口碑。但 M3 这一代明显是奔着国际一线去的,发布当天官方就拿 SWE-Bench Pro、BrowseComp 等多项基准测试的成绩单,直接对标 Claude Opus 4.7 和 GPT-5.5。

官网:https://www.minimaxi.com | 模型页面:https://www.minimaxi.com/models/text/m3

MiniMax M3 评测:技术硬刚全球顶尖,商业化却让开发者炸了

到底强在哪

评测数据刷了一屏,但冷静下来看,M3 真正能打的牌主要集中在三张。

MSA 稀疏注意力,把长上下文成本打了下来。 大模型处理长文本有个老问题:上下文每翻 10 倍,计算量暴增 100 倍。M3 自研的 MSA 架构用了”索引加稀疏计算”的双分支方案,先让轻量索引快速筛出跟当前 token 相关的内容块,再对这些块做精确计算。

官方给的数据是,在 100 万 token 规模下,单 token 计算量仅为上一代的二十分之一,预填充阶段快了 9.7 倍,解码生成快了 15.6 倍。翻译成人话:以前跑一次百万级上下文分析得等半天,现在几分钟内就能出结果。

编程能力,不只是在刷榜。 SWE-Bench Pro 拿到了接近 Claude Opus 4.7 的水平,直接超越了 GPT-5.5 和 Gemini 3.1 Pro。但更让人印象深刻的不是分数,发布会的现场演示里,M3 花 12 小时独立复现了一篇 ICLR 2025 杰出论文的全部核心实验,全程自主完成 18 次 commit,产出 23 张实验图表。

另一个测试更狠:给它一个 FP8 GEMM 算子优化的任务,M3 连续跑了 24 小时,提交了 147 次 benchmark,硬件峰值利用率从 7.6% 干到了 71.3%,接近 10 倍加速。光凭这两项,说它是”不用发工资的科研助手”不算过分。

Agent 自主执行,从对话走向行动。 BrowseComp 自主信息检索评测中,M3 拿到 83.5 分,干掉了 Claude Opus 4.7 的 79.3。在 PostTrainBench,一个让模型自己当教练、给别的模型做训练的场景,M3 得分 37.1,虽然排在 Opus 4.7(42.4)和 GPT-5.5(39.3)后面,但作为国产模型能挤进全球前三,这个成绩单已经够硬了。

评测项目 MiniMax M3 Claude Opus 4.7 GPT-5.5 Gemini 2.5/3.1 Pro
BrowseComp 信息检索 83.5 79.3 84.1 76.5
SWE-Bench Pro 编程 接近 Opus 领先 被超越 被超越
PostTrainBench 教练 37.1 42.4 39.3 未公开
上下文窗口 1M tokens 200K tokens 128K tokens 1M tokens

编程能力强的模型不缺,Agent 强的也有,多模态强的也不少。但三样同时拿得出手的,M3 是国产里第一个。

上手流程

功能参数看着唬人,实际用起来门槛怎么样?

目前 M3 的入口:API 直连、OpenCode 在线体验、Token Plan 订阅套餐,也可以桌面版及在线体验。OpenCode 是官方提供的在线 IDE,注册后直接选模型就能跑,限时免费。注册流程就是邮箱加验证码,一分钟搞定。首页界面就是标准对话窗口,左边能上传图片和代码文件,右边是输出区,整体跟 Cursor 或 GitHub Copilot Chat 的体验很像。

我用 OpenCode 试了一个经典场景:把一段 Python 爬虫代码扔进去,让它找出所有可能的效率瓶颈并优化。M3 先读了代码结构,然后逐段标注了可以异步执行的部分,最后输出了一份带注释的优化版代码。整个过程大概不到两分钟,优化的方案思路很清晰,不是那种粗暴的”把 for 循环改成列表推导式”,而是真的分析了哪些 IO 操作可以并发。

但有个小槽点:它改完之后默认不会在原文件上直接保存,得自己手动覆盖,对于习惯自动保存的人来说稍显割裂。

如果你走 API 接入,目前只开放了文本和多模态接口,语音和视频生成用的还是 MiniMax 家族的其他模型。API 的文档质量中规中矩,有完整的 curl 示例,但进阶用法比如流式输出和缓存策略的说明不够详细,新手可能得多踩几个坑。M3-highspeed 版本在 API 里已经上线,速度体感比标准版快约三分之一,推理结果完全一致。

进阶玩法

基础操作不复杂,但 M3 有几个真正值回票价的用法,很多人可能没注意到。

长文档全量分析,改代码不用挑挑拣拣。 M3 的 1M 上下文不是摆设。把一整个代码仓库的文件打包丢进去,告诉它”找出所有 SQL 注入风险并修复”,它能一次性扫完所有文件,不需要你手动拆成小块逐个提问。有开发者实测,把 15 万行的微服务项目扔给 M3,一次提问里就定位了 6 个真实的安全漏洞并给出了修复建议。对比用 128K 上下文的模型,同样的任务得拆成至少 5 轮对话,效率差距不是一点半点。

让 Agent 帮你跑马拉松式任务。 官方演示里的论文复现和算子优化属于极限展示,但日常开发里也能用,比如重构一个模块时,不需要一句一句指导,告诉它”把这个模块从 MySQL 迁移到 PostgreSQL,保持接口不变”,它能自主完成建表语句改写、ORM 代码适配、测试用例更新一整套流程。关键是要加一句提示”每个步骤结束后自我检查并记录日志”,触发它的自检逻辑后,成功率明显会高一个档次。

MiniMax M3 评测:技术硬刚全球顶尖,商业化却让开发者炸了

把 M3 当教练,帮新手模型快速上手。 PostTrainBench 的测试场景其实揭示了一个很有想象空间的用法:你可以让 M3 帮你为一个垂直领域的小模型生成训练数据、设计微调方案、迭代优化。虽然这套操作流程目前还没有封装成开箱即用的工具,但技术方向上已经跑通了。如果你的团队在折腾自己的领域模型,这一招能省掉大量人工标注和调参的时间。

MiniMax M3 评测:技术硬刚全球顶尖,商业化却让开发者炸了

竞品对比

评测分数跟 Claude Opus 4.7 五五开,那放现实场景里怎么选?

编程赛道现在是整个 AI 行业竞争最白热化的一块。OpenAI、Anthropic、Google 都有各自的编程专精模型,DeepSeek 因为性价比优势在国内开发群体里也有一席之地。M3 想在这个战场里抢蛋糕,靠的是三合一打法:开源 + 长上下文 + Agent 自主执行。

对比维度 MiniMax M3 Claude Opus 4.7 GPT-5.5 DeepSeek
编程能力 SWE-Bench Pro 接近 Opus 顶尖,代码之王 仅次于前两者 强但差距明显
上下文窗口 1M tokens 200K tokens 128K tokens 1M tokens
Agent 自主执行 BrowseComp 83.5 79.3 84.1 基础可用
多模态 原生图文+视频 原生图文 原生图文 图文后加
开源 是(即将开源) 是(部分模型)
API 输入价格 2.1 元/百万 tokens 约 20 元/百万 tokens 约 15 元/百万 tokens 约 1 元/百万 tokens

Claude Opus 4.7 在纯代码质量上仍然是最让人放心的选择,GPT-5.5 在 Agent 能力上略占上风,DeepSeek 的价格是碾压级别的。但如果你需要一个既能写得一手好代码、又有百万上下文、还能自己执行长线任务的开源模型,M3 是目前唯一的选择。它不是在跟对手比谁的单科成绩更高,而是在打一套组合拳。

用户反馈

数据漂亮归漂亮,发布第一天社区的风向就变了几次。

技术群里最先炸开的不是 M3 跑分有多高,而是有人发现 Token Plan 的计费模式从”按次”变成了”积分制”。原来的 Coding Plan 月费 49 块,限制并发但不限总调用次数,重度开发者一个月能跑三五十亿 token。新版 Plus 套餐同样是 49 块,但把总量锁死在 6 亿 token。按一位 CSDN 播主的实测算账,月消耗 30 亿 token 的老用户,实际成本从 49 元涨到了约 175 元,涨了 257%。

开发者论坛 Linux.do 上的相关帖子下,热评第一条就是”技术多牛都没用,钱包扛不住你就不是工具”。但同时也有不少人在理性讨论,有人指出 M3 百万上下文的单次调用消耗本身就比普通模型高,如果不限总量,平台大概率扛不住。“可以理解提价,但不能接受偷偷改规则”,这句吐槽几乎概括了大部分用户的情绪。

对轻度用户来说,49 块的 Plus 套餐确实够用,甚至可以说很划算,6 亿 token 覆盖日常编码、问答、多模态生成绰绰有余。但对于重度 Agent 开发者,这个额度简直像给跑车配了个五升油箱。目前社区的普遍建议是:轻度用户选套餐,重度用户走按量计费,有预算的话等开源后自己部署。

多维评分

吵归吵,拉开六个维度从头梳理一遍。

维度 评分 一句话解读
功能完整性 ⭐⭐⭐⭐⭐ 编程+Agent+多模态三项齐活,国产独一份
易用性 ⭐⭐⭐⭐☆ OpenCode 零门槛,API 文档中等但够用
性价比 ⭐⭐⭐☆☆ 轻度用户划算,重度开发者成本暴涨
创新性 ⭐⭐⭐⭐⭐ MSA 架构是底层突破,非应用层换皮
稳定性 ⭐⭐⭐⭐☆ 推理质量稳定,但订阅规则突变伤了信任
推荐度 ⭐⭐⭐⭐☆ 编程和 Agent 场景强推,价格等开源后再定

综合评分:7.8 / 10

技术层面给 8.5 分都不过分,但商业策略拉了后腿。如果后续定价能回归开发者友好路线,这个分数还有上涨空间。

优缺点

优势

  • MSA 架构颠覆长文本成本:百万 token 推理成本降至上一代的 5%,全球范围都算硬核突破
  • 编程+Agent 真实力:SWE-Bench Pro 比肩 Claude,12 小时自主复现顶会论文证明不是 PPT 跑分
  • 即将开源,自由度拉满:支持私有化部署和微调,对企业用户是不小吸引力
  • 全模态统一入口:一个 API Key 搞定文本、代码、图像、语音,切换模型不用换账号

不足

  • 定价策略暗改惹众怒:从不限量到严格限总量,老用户实际成本暴涨,信任损伤严重
  • 额度跟能力严重不匹配:百万上下文配 6 亿 token 月额度,重度 Agent 场景半个月就耗尽
  • 多模态生态还不完整:视频生成仍依赖家族其他模型,各模态之间的协同链路还没打通

适用人群

看完上面这些,大概能判断出自己属于哪一拨。

  • AI 应用开发者:如果你在折腾 Agent、RAG、或需要长上下文编程能力,M3 是目前国产里最值得试的。百万 token 窗口在代码库级别的分析和重构上,跟 128K 的差距是降维打击。
  • 重度编程用户:每天跟代码打交道的工程师,尤其是接手大型项目、需要跨文件理解业务逻辑的,M3 的长上下文加成非常明显。但建议走按量计费渠道,套餐对重度用户不划算。
  • 企业 AI 团队:计划做私有化部署或者基于开源模型微调垂直能力的团队,M3 的开源承诺让它比闭源竞品多了不少操作空间。等模型权重正式放出后,企业可以直接在自己的 GPU 集群上跑。
  • 轻度体验用户:只想日常问问代码、写点文档、偶尔玩玩多模态,Plus 套餐 49 块一个月完全够用,甚至可以说是这个价位上功能覆盖面最广的选择。
  • 不太适合:如果你对性价比极其敏感、且编程场景不复杂,DeepSeek 仍然是更务实的选择。如果你需要最顶级的纯代码质量且不在乎价格,Claude Opus 4.7 还是老大哥。

定价方案

价格是这次发布最大的争议点,把账算清楚比什么都强。

版本 月费 月度 token 总量 核心权益 适合
Plus ¥49 6 亿 全模态基础权益,3-4 Agent 并发 轻度用户
Max ¥119 18 亿 全模态含视频,4-5 Agent 并发 中度开发者
Ultra ¥469 55 亿 全模态不限量视频,6-7 Agent 并发 团队/重度用户
API 按量 输入 ¥2.1/百万 token 无上限 输出 ¥8.4/百万 token,缓存读取 ¥0.42/百万 token 重度 Agent 开发

以上价格均为截至 2026 年 6 月 1 日发布的 512K 以下上下文定价,发布首周享受五折活动。超过 512K 上下文的定价尚未公布。

坦诚地说,如果只看 API 按量计费的单价,2.1 元/百万 token 在国产大模型里算中等偏上但没到离谱的分位。真正的矛盾出在订阅套餐,老用户习惯了不限量,突然被锁死总量,心理落差比实际账单更伤人。轻度用户不会被影响,但重度用户的真实成本翻了两到三倍,这就是社区炸锅的根源。如果 MiniMax 后续能推出一档”高额不限速”的开发者专属套餐,或者把 Plus 档的总量翻倍,信任危机大概率能缓解。

可能还想问

前面聊了这么多,还有些细节可能正好是你关心的。

Q1:M3 支持中文吗?

A1:支持,而且中文能力是原生级别的。 M3 的预训练数据中包含大规模中文语料,中文理解和生成质量跟英文处于同一水平线,不是后期翻译补丁式的多语言支持。

Q2:什么时候能开源部署?

A2:官方承诺 10 天内发布技术报告并开源模型权重。 届时将在 HuggingFace 和 GitHub 同时放出,支持 vLLM 等主流推理框架。前代 M2.7 的开源协议禁止商用,M3 是否会采用更宽松的协议目前尚不明确。

Q3:M3 和 Claude/GPT 比编程谁更强?

A3:纯代码质量上 Claude Opus 4.7 略胜一筹,M3 在长上下文和自主执行能力上反超。 处理小型代码片段两者差距不大,但涉及跨文件重构或需要自主 Debug 的复杂任务时,M3 的百万上下文优势明显。

Q4:Token Plan 和旧版 Coding Plan 到底差在哪?

A4:核心变化是从”限量不限次”变成了”限总量”。 旧版算次数不管单次消耗,新版按实际 token 消耗扣减积分。对单次使用量小的轻度用户影响不大,对每次都跑几十万 token 上下文的 Agent 开发者就是成本暴涨。

Q5:能处理视频和语音吗?

A5:M3 本身只支持文本和图像输入。 视频和语音能力需要调用 MiniMax 家族的其他模型(Video-01、Speech-01 等),通过同一个 API Key 和令牌池可以统一调度,但各模态之间目前是独立调用的。

Q6:OpenCode 免费多久?

A6:官方说法是”限时免费使用”,未公布明确截止日期。 推测会在开源的模型权重发布前后结束,或者转为跟 Token Plan 绑定的增值服务。

Q7:跟 DeepSeek 比有什么优势?

A7:M3 在编程上限、Agent 自主执行和多模态能力上全面领先 DeepSeek,但 DeepSeek 的价格优势短期内难以撼动。 如果你的需求超出纯文本生成且预算允许,M3 更值得试;如果只追求性价比,DeepSeek 依然能打。

Q8:API 稳定吗?有没有限流?

A8:发布初期 API 稳定性尚可,但限流策略在调整中。 Plus/Max/Ultra 三档各有不同的 Agent 并发限制,高峰期偶尔会出现排队。按量计费目前没有公开的硬限流上限,但也不代表可以无节制高频调用。

Q9:能用 M3 做商业化产品吗?

A9:API 接入的商业化用途完全合规,Token Plan 也有商用授权。 开源后能否商用取决于最终的开源协议,这是所有等开源的开发者都在盯的事情,目前可以确定的是私有化部署和微调是开放的。

Q10:M3-highspeed 版本和标准版有什么区别?

A10:推理速度更快,结果完全一致。 highspeed 版的输入和输出价格均比标准版高 50%,适合对延迟敏感的生产环境。日常开发和测试用标准版完全够用。

最后的结论

MiniMax M3 在技术层面是国产大模型到这个时间点最硬核的一次进化。MSA 架构不是工程上的小修小补,而是从底层解决了长文本推理的成本问题;编程和 Agent 能力的实测表现也证明了跑分背后有真功夫。

但一面登顶技术,一面暗改定价,这种割裂感是发布当天最大的遗憾。如果你是一个靠 M3 跑长上下文 Agent 任务的开发者,技术上的提升确实让人兴奋,但在账单上会先挨一刀。如果你是轻度用户或者之前没怎么碰过大模型编程,49 块一个月换来一套全模态工具链,值回票价绰绰有余。

建议先趁发布首周的五折窗口跑一遍核心工作流,实际感受下百万上下文的真实价值。如果效果好,等开源权重放出来后自部署,彻底摆脱配额焦虑。

AI工具

Vidu 测评:清华系的 AI 视频模型,现在到底多能打?

2026-6-1 11:04:14

AI测评实战分享

腾讯WorkBuddy企业微信玩龙虾实操教程来了

2026-3-11 14:32:54

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧