Xiaomi Mimo系列综合场景深度测评报告

Xiaomi Mimo系列综合场景深度测评报告

Mimo-v2-Pro & Mimo-v2-Omni
综合场景深度测评报告

数据来源:XSCT Arena  |  评测日期:2026-03-19

用例集:16 条跨模型对比(L/W/A 三维覆盖)+ 14 条小米内部对比

基于 XSCT Arena 平台 L(文本理解)/ W(Web 应用生成)/ A(Agentic 任务)三轨全量数据,对标 Mimo-v2-Flash 内部基线,横向比对 Claude Sonnet 4.6、GPT-5.4、Gemini 3.1 Pro。

Judge:Claude 50% · Gemini 30% · Kimi 20%

本报告所有评测数据均由小山基于 XSCT 用例生成。
详细报告请点击查看原文查阅原始数据与评测用例。


24
纳入统计用例数
84.63
Pro 全用例均分
86.22
Omni 全用例均分
1/56
Omni 相对旗舰成本

一、执行摘要

核心结论速览

Xiaomi Mimo系列综合场景深度测评报告
📌 一句话结论
Mimo-v2-Pro在 L 维度(84.4)与顶级竞品差距已收窄,但W 维度(73.4)低于同系列 Flash,A 维度(56.7)与 Flash 几乎持平,版本升级的实质收益集中于 L 维度;Mimo-v2-Omni是本系列隐藏的最均衡选手,A 综合(62.8)与 GPT-5.4 并列,PPT 生成超越 Gemini,成本仅为外部旗舰的1/56。Flash 在多工具状态任务中得分明显偏低(40.5 分);Claude Sonnet 4.6 在多项 L 维度用例拿下全场最高分,是当前评测中小米模型差距最明显的短板方向。
结论一:Pro 的版本升级集中于 L 维度,W/A 方向无实质增益
L 综合 84.4(#13),与 Gemini 差距 1.3 分;W 综合 73.4(#18)低于 Flash 5.4 分;A 综合 56.7 与 Flash 56.9 几乎持平,三维仅一维真实升级。
结论二:Omni 是小米系列性价比最高选手,A 维度媲美 GPT-5.4
A 综合 62.8 与 GPT-5.4 并列 #4,PPT 生成 hard(91.4)超 Gemini(90.7);输出成本 ¥1.93/1M,约为 GPT-5.4 的 1/56。
结论三:Flash W 反超 Pro,但多状态任务得分偏低
W 综合 78.8(#11)高于 Pro 73.4(#18);但 l_agent_004 中 Flash 仅得 40.5(vs Pro 91.5),差距超 50 分。
结论四:Gemini A 综合最高,但困难 Agent 任务存在系统性崩溃风险
Gemini A 综合 71.1(#2),但 orch_001 困难难度骤降至 27.8(基础 91.3 → 困难 27.8),跌幅 63.5 分。
结论五:数学推理 SOTA 级已收敛,困难题才能有效区分模型能力
基础/中等 5 款模型全在 95–98.7 分区间;困难题:GPT 85.5 >Pro/Omni 83.7 >Gemini 66.7 >Flash 63.0,梯度清晰。
结论六:创意写作评分分歧最大,Judge 膨胀导致综合分可信度存疑
同一用例三 Judge 分歧超 15 分,Gemini Judge 倾向 96+,Claude/Kimi 严格扣分;Flash 在 l_write_007 以 89.0 分反超 Pro(70.0)。
结论七:Flash W 维度难度稳定性差,复杂用例存在代码截断/崩溃风险
Flash 在 W-Form(w_form_009)基础难度仅 53.8,JS 完全缺失;在 W-ThemeSwitching 困难难度骤降至 61.9(基础 88.8 → 困难 61.9)。
结论八:全系列 Agentic 基础任务存在”前置检查陷阱”,需工作流干预
a_353 基础难度:Pro=1.0、Omni=2.5、Flash=0.0,三款模型全军覆没,均卡在 pip check/ls 等环境探测步骤;困难难度却达 90–92 分。建议通过 System Prompt 预设「直接执行」约束。
结论九:Claude Sonnet 4.6 在 L 维度多项夺冠,揭示小米模型的顶部差距
Claude 在 l_code_001(98.0)、l_trans_004(91.4)、l_write_001(92.1)、l_math_007(94.7)等多题全场最高分。小米 Pro/Omni 与 Claude 的 L 维度差距约 8–15 分,尤其在人文写作、代码规范性和数学推理深度上需重点补强。

二、研究背景与方法论

2.1 平台说明

本报告全部数据来自 XSCT Arena 场景化大模型评测平台,评测覆盖文本理解(xsct-l)、Web 应用生成(xsct-w)、Agentic 任务执行(xsct-a)三个维度,每条用例设 Basic / Medium / Hard 三档难度,综合分 = 日常(30%)+ 专业(40%)+ 极限(30%)。

2.2 公平对比原则

  • 横向对比仅选所有目标模型均有数据的公平用例集,某模型缺数据则该用例不参与排名
  • 每个维度取 ≥3 条用例均分;单用例数据在报告中明确标注用例数量
  • Judge 分差 >15 分时专门说明分歧原因
  • 得分差距判断:≤2 分 = 误差;5-9 分 = 有意义;≥10 分 = 明显优势

2.3 目标模型与竞品列表

Xiaomi Mimo系列综合场景深度测评报告

三、模型基本档案

3.1 Mimo-v2-Pro

模型档案 — Mimo-v2-Pro
  • 强项:
    文本写作(L-Writing 87.3 hard)、长文逻辑一致性、多场景人设控制
  • 风险1:
    Web 生成能力严重低于系列预期(W 综合 73.4,#18,甚至低于 Flash #11)
  • 风险2:
    Agentic 任务执行较弱(56.7,与 Flash 持平),工具调用可靠性存疑
  • 适配场景:
    内容创作平台、专业写作辅助、长文本生成、角色扮演类产品
  • 不建议场景:
    前端代码生成、Web App 构建、复杂 Agent 工作流

3.2 Mimo-v2-Omni

模型档案 — Mimo-v2-Omni
  • 强项:
    Agentic 任务(62.8,与 GPT-5.4 并列 #4)、PPT/文档生成类 Agent、多轮对话意图追踪
  • 风险1:
    文本写作出现幻觉风险(擅自添加”单亲”人设)
  • 风险2:
    Web 生成低于竞品(78.1,落后于 Flash 78.8)
  • 适配场景:
    办公自动化 Agent、文档生成工作流、PPT/报告自动化、轻量级 Agentic 产品
  • 不建议场景:
    严格事实性写作、医疗/法律高精度内容生成

3.3 系列内部进化对比

Xiaomi Mimo系列综合场景深度测评报告
系列关键发现
Pro 的 Web 生成能力低于同系列 Flash(73.4 vs Flash 78.8,差距 5.4 分),属于评测中较为值得关注的发现。建议排查 Pro 的前端代码训练数据分布及 RLHF 策略。

四、全景维度评分(L / W / A)

4.1 xsct-l 文本综合热力表

Xiaomi Mimo系列综合场景深度测评报告

4.2 xsct-w 热力表(Web 应用生成)

Xiaomi Mimo系列综合场景深度测评报告

4.3 xsct-a 热力表(Agentic 任务)

Xiaomi Mimo系列综合场景深度测评报告
退化规律总结
Pro 的退化高度集中在 W 维度(-5.4 综合,极限 -10.3)。L 维度稳定正向进化,A 维度与 Flash 基本持平——Pro 是一个针对文本质量深度优化、但牺牲了 Web 代码生成能力的定向进化版本,并非全面升级。

五、核心场景深度分析

5.1 写作任务 — 多场景角色一致性(l_write_001 · hard)

用例描述:扮演”林思远”(35岁 UX 设计师,建筑师转行,有4岁女儿,移居成都),完成私人邮件 + 约会软件简介 + 面试回答三段写作,并输出人设一致性自查表。

Xiaomi Mimo系列综合场景深度测评报告
Kimi Judge(75.0 分)· mimo-v2-omni“候选输出存在两个致命缺陷:一是擅自添加「单亲爸爸」设定,与原始人设档案产生实质性矛盾;二是约会软件字数严重超标(180字 vs 120-150字)。”
深度解读
Pro 的优势源于其较强的跨场景人设一致性控制能力。Omni 的”单亲”幻觉揭示了一个系统性风险:当模型试图补全信息空白时,可能引入原始设定中不存在的假设,在高可靠性写作场景(法律/合同/人物档案)中这是不可接受的。

5.2 博弈论推理 — 蜈蚣博弈逆向归纳(l_logic_009 · hard)

用例描述:100轮蜈蚣博弈完整分析——要求逆向归纳推导子博弈完美均衡、解释实验现象与理论偏差(认知层次、社会偏好等≥2维度)、批判「完全理性」与 CKR 假设局限、分析 AI 对战均衡与强化学习偏差。

Xiaomi Mimo系列综合场景深度测评报告

5.3 科幻短篇创作 — 非线性叙事(l_creative_001 · hard)

用例描述:280-320字科幻故事开头,需包含哲学命题(100字内)、非线性叙事结构、≥2种感官描写、自然融入伏笔,禁止套语和旁白式解释。

Xiaomi Mimo系列综合场景深度测评报告

5.4 Agentic PPT 生成 — 多轮矛盾指令处理(a_034 · hard)

用例描述:多轮对话中将”政府汇报 PPT”改版为”投资人路演 PPT”,处理风险页去留矛盾、总页数 10 页限制、保留特定场景页等冲突约束。

Xiaomi Mimo系列综合场景深度测评报告
深度解读
Omni 在 A 维度的优势在此得到最直接体现。91.4 分不仅超越 Gemini(90.7)和 Pro(88.1),其核心优势在于多轮意图追踪(94.0 分)和矛盾指令处理(92.6 分),两项均领先所有参与模型。Flash 工具调用缺失是典型的”说而不做”问题,在生产级 Agent 系统中不可接受。

5.5 多视角叙事写作(l_write_007 · hard)

Xiaomi Mimo系列综合场景深度测评报告

5.6 文学翻译批评 — 《盖茨比》结尾句(l_trans_004 · hard)

Xiaomi Mimo系列综合场景深度测评报告

5.7 代码工程 — 分布式限流器设计(l_code_038 · hard)

Xiaomi Mimo系列综合场景深度测评报告

5.8 多工具协同执行 — Flash 极端失分(l_agent_004 · medium)

Xiaomi Mimo系列综合场景深度测评报告
⚠️ Flash 工具调用能力断层
Flash 在此用例仅得 40.5 分(中等难度),与 Pro(91.5)/Omni(92.0)差距超过 50 分,是本次评测中同系列内部最大的能力断层。在需要多工具调用的 Agentic 应用中,Flash 不应作为首选。

5.9 数学推理 — 质数无穷证明(l_math_007 · hard)

Xiaomi Mimo系列综合场景深度测评报告

5.10 数学竞赛深度推理(l_math_008 · 三档难度对比)

Xiaomi Mimo系列综合场景深度测评报告
关键发现:基础数学持平,困难题拉开差距
五款模型在基础/中等题上几乎全部达到 95+ 分,差距不超过 4 分,说明 SOTA 级别模型在标准数学推导上已趋于收敛。真正的区分度在困难题:GPT-5.4(85.5)> Pro/Omni(83.7)> Gemini(66.7)> Flash(63.0)。

5.11 子 Agent 并行编排(orch_001 · 三档难度)

Xiaomi Mimo系列综合场景深度测评报告
Gemini 困难题稳定性问题
Gemini 在基础(91.3)和中等(89.5)难度都是最强的,但困难难度骤降至 27.8 分,是所有模型中最大的难度落差(跌幅 63.5 分)。表明 Gemini 的 Agent 编排能力在复杂度超过一定阈值后会出现系统性崩溃。相比之下,Pro 和 Omni 表现更稳定。

六、横向竞品对标

6.1 公平用例集逐条对比(9 条全模型完整数据)

Xiaomi Mimo系列综合场景深度测评报告

6.2 Omni vs 外部竞品维度均分对比

Xiaomi Mimo系列综合场景深度测评报告
竞品对标结论
Omni 在 Agentic 任务上以 1/7.8 的价格实现了与 GPT-5.4 完全相同的综合分(62.8),PPT 等文档生成场景甚至反超 GPT-5.4(+5.6 分)。这一性价比优势在办公自动化和文档 Agent 场景中极具吸引力。

七、综合评估:优劣势矩阵

Mimo-v2-Pro 优劣势

✅ 优势
L 综合分84.4
直追 Gemini 3.1 Pro差 1.3 分
写作用例 hard 分87.3
多场景人设控制全系列最强
❌ 劣势
W 综合分73.4
W 低于 Flash差 5.4 分
A 综合分56.7(与Flash并列)
输出溢价Flash 的 10 倍

Mimo-v2-Omni 优劣势

✅ 优势
A 综合分62.8
PPT 生成 hard 分91.4
多轮意图追踪94.0 分(最高)
创意写作81.5(反超 Pro)
❌ 劣势
幻觉风险添加”单亲”人设
W 综合分78.1(低于 Flash)
A 落后 Gemini差 8.3 分
数值推导精度直觉跳变

八、场景选型建议

Xiaomi Mimo系列综合场景深度测评报告
何时选 Pro vs Omni vs Flash?
  • 选 Pro:
    核心任务是高质量长文本生成、多场景写作、内容营销,且对 Web 生成无需求
  • 选 Omni:
    需要 Agentic 能力(文档生成/工具调用/多轮对话),PPT 自动化,或希望以 1/7.8 的 GPT 价格实现相近效果
  • 选 Flash:
    高并发低成本场景,日常文本质量够用,需要 Web 生成能力,预算极度敏感

⚠️ 避免将 Pro 用于 Web 前端代码生成,这是其最大短板。

九、核心结论与改进建议

改进建议优先级

Xiaomi Mimo系列综合场景深度测评报告

展望

综合 30 条测评用例数据来看,小米 Mimo-v2 系列的核心竞争力在于极致的性价比——Omni 以 GPT-5.4 约 1/56 的输出成本,在 A 维度达到与其并列的水准;Flash 以极低的价格覆盖大量日常 L/W 场景。然而当前版本存在三条明显的”能力断层线”:Flash 在复杂 W 用例中的代码截断与逻辑崩溃;全系列在 Agentic 冷启动场景中的决策陷阱;Pro 在 W 维度的系列内倒退。

本次新增 Claude Sonnet 4.6 数据进一步明确了差距边界:W 和 A 维度已与外部顶级竞品基本持平,L 维度的代码工程规范性、人文写作深度、复杂逻辑推理是与 Claude 差距最显著的三个方向,建议作为 Mimo-v3 的重点强化目标。如果 Mimo-v3 能够在保持现有成本优势的同时修复上述问题,小米系列将在中等复杂度 Agent/Web 应用市场形成较强的差异化竞争位置。

十、附录:全量用例对照表

Xiaomi Mimo系列综合场景深度测评报告

十一、局限性声明

用例覆盖不完全:本报告深度分析集中在 L / W / A 三轨 Hard 难度代表性用例,通过维度均分呈现整体表现。建议关键决策前通过平台验证更多用例。
LLM-as-a-Judge 主观性:Judge 模型(Claude 50% · Gemini 30% · Kimi 20%)本身的偏好会影响评分。对分差 >15 分的用例均已进行分歧分析,但无法完全消除主观性影响。
价格数据时效性:定价以 2026-03-19 各厂商官方公示价格为准,实际决策时请以最新定价为准。
模型版本迭代:数据采集于 2026 年 3 月,报告结论不代表未来版本表现,建议定期通过 XSCT Arena 平台重新评估。


数据来源:XSCT Arena(xsct.ai) · 报告日期:2026 年 3 月 19 日

评测方式:XSCT Arena 平台全自动化评测,全程无人工干预;

Claude 系列 API 赞助:PIPELLM(pipellm.ai),未参与报告内容撰写

关于我

我是洛小山,一个在 AI 浪潮中不断思考和实践的大厂产品总监。

我不追热点,只分享那些能真正改变我们工作模式的观察和工具。

如果你也在做 AI 产品,欢迎关注我,我们一起进化。

AI工具AI测评

Google Stitch评测:用语音"说"出UI,Figma慌了吗?

2026-3-21 0:03:40

AI工具AI测评

代码小浣熊测评:商汤这款"中文编程救星"到底行不行?

2026-3-21 14:33:48

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧