Mimo-v2-Pro & Mimo-v2-Omni
综合场景深度测评报告

数据来源：XSCT Arena | 评测日期：2026-03-19

用例集：16 条跨模型对比（L/W/A 三维覆盖）+ 14 条小米内部对比

基于 XSCT Arena 平台 L（文本理解）/ W（Web 应用生成）/ A（Agentic 任务）三轨全量数据，对标 Mimo-v2-Flash 内部基线，横向比对 Claude Sonnet 4.6、GPT-5.4、Gemini 3.1 Pro。

Judge：Claude 50% · Gemini 30% · Kimi 20%

本报告所有评测数据均由小山基于 XSCT 用例生成。
详细报告请点击查看原文查阅原始数据与评测用例。

纳入统计用例数

84.63

Pro 全用例均分

86.22

Omni 全用例均分

1/56

Omni 相对旗舰成本

一、执行摘要

核心结论速览

📌 一句话结论

Mimo-v2-Pro在 L 维度（84.4）与顶级竞品差距已收窄，但W 维度（73.4）低于同系列 Flash，A 维度（56.7）与 Flash 几乎持平，版本升级的实质收益集中于 L 维度；Mimo-v2-Omni是本系列隐藏的最均衡选手，A 综合（62.8）与 GPT-5.4 并列，PPT 生成超越 Gemini，成本仅为外部旗舰的1/56。Flash 在多工具状态任务中得分明显偏低（40.5 分）；Claude Sonnet 4.6 在多项 L 维度用例拿下全场最高分，是当前评测中小米模型差距最明显的短板方向。

结论一：Pro 的版本升级集中于 L 维度，W/A 方向无实质增益

L 综合 84.4（#13），与 Gemini 差距 1.3 分；W 综合 73.4（#18）低于 Flash 5.4 分；A 综合 56.7 与 Flash 56.9 几乎持平，三维仅一维真实升级。

结论二：Omni 是小米系列性价比最高选手，A 维度媲美 GPT-5.4

A 综合 62.8 与 GPT-5.4 并列 #4，PPT 生成 hard（91.4）超 Gemini（90.7）；输出成本 ¥1.93/1M，约为 GPT-5.4 的 1/56。

结论三：Flash W 反超 Pro，但多状态任务得分偏低

W 综合 78.8（#11）高于 Pro 73.4（#18）；但 l_agent_004 中 Flash 仅得 40.5（vs Pro 91.5），差距超 50 分。

结论四：Gemini A 综合最高，但困难 Agent 任务存在系统性崩溃风险

Gemini A 综合 71.1（#2），但 orch_001 困难难度骤降至 27.8（基础 91.3 → 困难 27.8），跌幅 63.5 分。

结论五：数学推理 SOTA 级已收敛，困难题才能有效区分模型能力

基础/中等 5 款模型全在 95–98.7 分区间；困难题：GPT 85.5 >Pro/Omni 83.7 >Gemini 66.7 >Flash 63.0，梯度清晰。

结论六：创意写作评分分歧最大，Judge 膨胀导致综合分可信度存疑

同一用例三 Judge 分歧超 15 分，Gemini Judge 倾向 96+，Claude/Kimi 严格扣分；Flash 在 l_write_007 以 89.0 分反超 Pro（70.0）。

结论七：Flash W 维度难度稳定性差，复杂用例存在代码截断/崩溃风险

Flash 在 W-Form（w_form_009）基础难度仅 53.8，JS 完全缺失；在 W-ThemeSwitching 困难难度骤降至 61.9（基础 88.8 → 困难 61.9）。

结论八：全系列 Agentic 基础任务存在”前置检查陷阱”，需工作流干预

a_353 基础难度：Pro=1.0、Omni=2.5、Flash=0.0，三款模型全军覆没，均卡在 pip check/ls 等环境探测步骤；困难难度却达 90–92 分。建议通过 System Prompt 预设「直接执行」约束。

结论九：Claude Sonnet 4.6 在 L 维度多项夺冠，揭示小米模型的顶部差距

Claude 在 l_code_001（98.0）、l_trans_004（91.4）、l_write_001（92.1）、l_math_007（94.7）等多题全场最高分。小米 Pro/Omni 与 Claude 的 L 维度差距约 8–15 分，尤其在人文写作、代码规范性和数学推理深度上需重点补强。

二、研究背景与方法论

2.1 平台说明

本报告全部数据来自 XSCT Arena 场景化大模型评测平台，评测覆盖文本理解（xsct-l）、Web 应用生成（xsct-w）、Agentic 任务执行（xsct-a）三个维度，每条用例设 Basic / Medium / Hard 三档难度，综合分 = 日常（30%）+ 专业（40%）+ 极限（30%）。

2.2 公平对比原则

横向对比仅选所有目标模型均有数据的公平用例集，某模型缺数据则该用例不参与排名
每个维度取 ≥3 条用例均分；单用例数据在报告中明确标注用例数量
Judge 分差 >15 分时专门说明分歧原因
得分差距判断：≤2 分 = 误差；5-9 分 = 有意义；≥10 分 = 明显优势

2.3 目标模型与竞品列表

三、模型基本档案

3.1 Mimo-v2-Pro

模型档案 — Mimo-v2-Pro

强项：

文本写作（L-Writing 87.3 hard）、长文逻辑一致性、多场景人设控制
风险1：

Web 生成能力严重低于系列预期（W 综合 73.4，#18，甚至低于 Flash #11）
风险2：

Agentic 任务执行较弱（56.7，与 Flash 持平），工具调用可靠性存疑
适配场景：

内容创作平台、专业写作辅助、长文本生成、角色扮演类产品
不建议场景：

前端代码生成、Web App 构建、复杂 Agent 工作流

3.2 Mimo-v2-Omni

模型档案 — Mimo-v2-Omni

强项：

Agentic 任务（62.8，与 GPT-5.4 并列 #4）、PPT/文档生成类 Agent、多轮对话意图追踪
风险1：

文本写作出现幻觉风险（擅自添加”单亲”人设）
风险2：

Web 生成低于竞品（78.1，落后于 Flash 78.8）
适配场景：

办公自动化 Agent、文档生成工作流、PPT/报告自动化、轻量级 Agentic 产品
不建议场景：

严格事实性写作、医疗/法律高精度内容生成

3.3 系列内部进化对比

系列关键发现

Pro 的 Web 生成能力低于同系列 Flash（73.4 vs Flash 78.8，差距 5.4 分），属于评测中较为值得关注的发现。建议排查 Pro 的前端代码训练数据分布及 RLHF 策略。

四、全景维度评分（L / W / A）

4.1 xsct-l 文本综合热力表

4.2 xsct-w 热力表（Web 应用生成）

4.3 xsct-a 热力表（Agentic 任务）

退化规律总结

Pro 的退化高度集中在 W 维度（-5.4 综合，极限 -10.3）。L 维度稳定正向进化，A 维度与 Flash 基本持平——Pro 是一个针对文本质量深度优化、但牺牲了 Web 代码生成能力的定向进化版本，并非全面升级。

五、核心场景深度分析

5.1 写作任务 — 多场景角色一致性（l_write_001 · hard）

用例描述：扮演”林思远”（35岁 UX 设计师，建筑师转行，有4岁女儿，移居成都），完成私人邮件 + 约会软件简介 + 面试回答三段写作，并输出人设一致性自查表。

Kimi Judge（75.0 分）· mimo-v2-omni“候选输出存在两个致命缺陷：一是擅自添加「单亲爸爸」设定，与原始人设档案产生实质性矛盾；二是约会软件字数严重超标（180字 vs 120-150字）。”

深度解读

Pro 的优势源于其较强的跨场景人设一致性控制能力。Omni 的”单亲”幻觉揭示了一个系统性风险：当模型试图补全信息空白时，可能引入原始设定中不存在的假设，在高可靠性写作场景（法律/合同/人物档案）中这是不可接受的。

5.2 博弈论推理 — 蜈蚣博弈逆向归纳（l_logic_009 · hard）

用例描述：100轮蜈蚣博弈完整分析——要求逆向归纳推导子博弈完美均衡、解释实验现象与理论偏差（认知层次、社会偏好等≥2维度）、批判「完全理性」与 CKR 假设局限、分析 AI 对战均衡与强化学习偏差。

5.3 科幻短篇创作 — 非线性叙事（l_creative_001 · hard）

用例描述：280-320字科幻故事开头，需包含哲学命题（100字内）、非线性叙事结构、≥2种感官描写、自然融入伏笔，禁止套语和旁白式解释。

5.4 Agentic PPT 生成 — 多轮矛盾指令处理（a_034 · hard）

用例描述：多轮对话中将”政府汇报 PPT”改版为”投资人路演 PPT”，处理风险页去留矛盾、总页数 10 页限制、保留特定场景页等冲突约束。

深度解读

Omni 在 A 维度的优势在此得到最直接体现。91.4 分不仅超越 Gemini（90.7）和 Pro（88.1），其核心优势在于多轮意图追踪（94.0 分）和矛盾指令处理（92.6 分），两项均领先所有参与模型。Flash 工具调用缺失是典型的”说而不做”问题，在生产级 Agent 系统中不可接受。

5.5 多视角叙事写作（l_write_007 · hard）

5.6 文学翻译批评 — 《盖茨比》结尾句（l_trans_004 · hard）

5.7 代码工程 — 分布式限流器设计（l_code_038 · hard）

5.8 多工具协同执行 — Flash 极端失分（l_agent_004 · medium）

⚠️ Flash 工具调用能力断层

Flash 在此用例仅得 40.5 分（中等难度），与 Pro（91.5）/Omni（92.0）差距超过 50 分，是本次评测中同系列内部最大的能力断层。在需要多工具调用的 Agentic 应用中，Flash 不应作为首选。

5.9 数学推理 — 质数无穷证明（l_math_007 · hard）

5.10 数学竞赛深度推理（l_math_008 · 三档难度对比）

关键发现：基础数学持平，困难题拉开差距

五款模型在基础/中等题上几乎全部达到 95+ 分，差距不超过 4 分，说明 SOTA 级别模型在标准数学推导上已趋于收敛。真正的区分度在困难题：GPT-5.4（85.5）> Pro/Omni（83.7）> Gemini（66.7）> Flash（63.0）。

5.11 子 Agent 并行编排（orch_001 · 三档难度）

Gemini 困难题稳定性问题

Gemini 在基础（91.3）和中等（89.5）难度都是最强的，但困难难度骤降至 27.8 分，是所有模型中最大的难度落差（跌幅 63.5 分）。表明 Gemini 的 Agent 编排能力在复杂度超过一定阈值后会出现系统性崩溃。相比之下，Pro 和 Omni 表现更稳定。

六、横向竞品对标

6.1 公平用例集逐条对比（9 条全模型完整数据）

6.2 Omni vs 外部竞品维度均分对比

竞品对标结论

Omni 在 Agentic 任务上以 1/7.8 的价格实现了与 GPT-5.4 完全相同的综合分（62.8），PPT 等文档生成场景甚至反超 GPT-5.4（+5.6 分）。这一性价比优势在办公自动化和文档 Agent 场景中极具吸引力。

七、综合评估：优劣势矩阵

Mimo-v2-Pro 优劣势

✅ 优势

L 综合分84.4

直追 Gemini 3.1 Pro差 1.3 分

写作用例 hard 分87.3

多场景人设控制全系列最强

❌ 劣势

W 综合分73.4

W 低于 Flash差 5.4 分

A 综合分56.7（与Flash并列）

输出溢价Flash 的 10 倍

Mimo-v2-Omni 优劣势

✅ 优势

A 综合分62.8

PPT 生成 hard 分91.4

多轮意图追踪94.0 分（最高）

创意写作81.5（反超 Pro）

❌ 劣势

幻觉风险添加”单亲”人设

W 综合分78.1（低于 Flash）

A 落后 Gemini差 8.3 分

数值推导精度直觉跳变

八、场景选型建议

何时选 Pro vs Omni vs Flash？

选 Pro：

核心任务是高质量长文本生成、多场景写作、内容营销，且对 Web 生成无需求
选 Omni：

需要 Agentic 能力（文档生成/工具调用/多轮对话），PPT 自动化，或希望以 1/7.8 的 GPT 价格实现相近效果
选 Flash：

高并发低成本场景，日常文本质量够用，需要 Web 生成能力，预算极度敏感

⚠️ 避免将 Pro 用于 Web 前端代码生成，这是其最大短板。

九、核心结论与改进建议

改进建议优先级

展望

综合 30 条测评用例数据来看，小米 Mimo-v2 系列的核心竞争力在于极致的性价比——Omni 以 GPT-5.4 约 1/56 的输出成本，在 A 维度达到与其并列的水准；Flash 以极低的价格覆盖大量日常 L/W 场景。然而当前版本存在三条明显的”能力断层线”：Flash 在复杂 W 用例中的代码截断与逻辑崩溃；全系列在 Agentic 冷启动场景中的决策陷阱；Pro 在 W 维度的系列内倒退。

本次新增 Claude Sonnet 4.6 数据进一步明确了差距边界：W 和 A 维度已与外部顶级竞品基本持平，L 维度的代码工程规范性、人文写作深度、复杂逻辑推理是与 Claude 差距最显著的三个方向，建议作为 Mimo-v3 的重点强化目标。如果 Mimo-v3 能够在保持现有成本优势的同时修复上述问题，小米系列将在中等复杂度 Agent/Web 应用市场形成较强的差异化竞争位置。

十、附录：全量用例对照表

十一、局限性声明

用例覆盖不完全：本报告深度分析集中在 L / W / A 三轨 Hard 难度代表性用例，通过维度均分呈现整体表现。建议关键决策前通过平台验证更多用例。
LLM-as-a-Judge 主观性：Judge 模型（Claude 50% · Gemini 30% · Kimi 20%）本身的偏好会影响评分。对分差 >15 分的用例均已进行分歧分析，但无法完全消除主观性影响。
价格数据时效性：定价以 2026-03-19 各厂商官方公示价格为准，实际决策时请以最新定价为准。
模型版本迭代：数据采集于 2026 年 3 月，报告结论不代表未来版本表现，建议定期通过 XSCT Arena 平台重新评估。

数据来源：XSCT Arena（xsct.ai） · 报告日期：2026 年 3 月 19 日

评测方式：XSCT Arena 平台全自动化评测，全程无人工干预；

Claude 系列 API 赞助：PIPELLM（pipellm.ai），未参与报告内容撰写

关于我

我是洛小山，一个在 AI 浪潮中不断思考和实践的大厂产品总监。

我不追热点，只分享那些能真正改变我们工作模式的观察和工具。

如果你也在做 AI 产品，欢迎关注我，我们一起进化。

{{userData.name}}已认证

Mimo-v2-Pro & Mimo-v2-Omni 综合场景深度测评报告

一、执行摘要

核心结论速览

二、研究背景与方法论

2.1 平台说明

2.2 公平对比原则

2.3 目标模型与竞品列表

三、模型基本档案

3.1 Mimo-v2-Pro

3.2 Mimo-v2-Omni

3.3 系列内部进化对比

四、全景维度评分（L / W / A）

4.1 xsct-l 文本综合热力表

4.2 xsct-w 热力表（Web 应用生成）

4.3 xsct-a 热力表（Agentic 任务）

五、核心场景深度分析

5.1 写作任务 — 多场景角色一致性（l_write_001 · hard）

5.2 博弈论推理 — 蜈蚣博弈逆向归纳（l_logic_009 · hard）

5.3 科幻短篇创作 — 非线性叙事（l_creative_001 · hard）

5.4 Agentic PPT 生成 — 多轮矛盾指令处理（a_034 · hard）

5.5 多视角叙事写作（l_write_007 · hard）

5.6 文学翻译批评 — 《盖茨比》结尾句（l_trans_004 · hard）

5.7 代码工程 — 分布式限流器设计（l_code_038 · hard）

5.8 多工具协同执行 — Flash 极端失分（l_agent_004 · medium）

5.9 数学推理 — 质数无穷证明（l_math_007 · hard）

5.10 数学竞赛深度推理（l_math_008 · 三档难度对比）

5.11 子 Agent 并行编排（orch_001 · 三档难度）

六、横向竞品对标

6.1 公平用例集逐条对比（9 条全模型完整数据）

6.2 Omni vs 外部竞品维度均分对比

七、综合评估：优劣势矩阵

Mimo-v2-Pro 优劣势

Mimo-v2-Omni 优劣势

八、场景选型建议

九、核心结论与改进建议

改进建议优先级

展望

十、附录：全量用例对照表

十一、局限性声明

关于我

Google Stitch评测：用语音"说"出UI，Figma慌了吗？

代码小浣熊测评：商汤这款"中文编程救星"到底行不行？

说句话就能出设计稿，还能直接交付工程代码？Design Desk实测体验

5 个技巧教你用 TRAE SOLO 做复杂数据分析

Gemini Omni Flash 测评：谷歌 I/O 2026 重磅发布，对话式视频生成来了

QoderWork：全球首个AI Native 自定义工作台发布

阿里QoderWork测评：桌面AI战争打响，这款国产智能体凭什么站上牌桌

Gemini 3.5 Flash 测评：当 Flash 系列开始干翻旗舰，谷歌的 Agent 时代来了

ArtStation 深度评测：全球创意人的“职业护照”够不够硬？

相似站点

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议

Mimo-v2-Pro & Mimo-v2-Omni
综合场景深度测评报告