MiniMax Agent 更新：这次我们重新设计了 Agent 操作电脑的方式

上周，我们发布了 MMX-CLI，让 Agent 可以直接通过命令行调用 MiniMax 的全模态能力。命令行是 Agent 在终端中完成工作的常见形态，但用户的工作并不只发生在命令行内，电脑上还有大量任务藏在命令行无法触达的本地软件、内部系统和图形界面中。

今天，我们发布 MiniMax Agent 桌面端两项更新：

Pocket 功能上线（Beta 版），支持接入飞书、微信、企业微信、Slack 等主流 IM 通讯软件，让桌面智能体可以随身携带。用户在 IM 中唤起 Pocket 并发送指令后，Agent 即在其电脑上执行任务，并将结果回传至原对话。
Computer Use 功能上线，Agent 可以像人一样看屏幕、操作鼠标和键盘，直接操作用户电脑上的软件。本地安装的设计工具、内部的报表系统、藏在偏好设置中的开关、需要在多个应用之间手动衔接的流程——这些过去 Agent 难以触达的任务，现在都可以由它完成。

IM 与 Computer Use 还可以实现哪些实用的功能？我们看这样几个场景：

Case 1：远程找文件

Query： “帮我看下我桌面上是不是有一个 2025 report 的 pdf？找到并发给我。”

Agent 在用户电脑的桌面上定位文件，找到后将文件直接回传到原对话。用户在地铁上、会议中、出差途中都可以用同样的方式取用本地文件，不需要打开电脑。

MiniMax Agent 更新：这次我们重新设计了 Agent 操作电脑的方式

Case 2：筛选简历并生成飞书文档

Query： “读取桌面上 Resume 文件夹里的所有简历，根据设计经验年限、量化成果和技能匹配度，挑选最符合 AI Native 工作环境 Product Designer 岗位的 Top 3 候选人，并简要说明每人入选理由。根据这三人的具体经历出面试题，题型覆盖过去项目深挖 ×2、设计决策与方法论 ×2、协作与软技能 ×1、针对简历中某个值得追问的细节 ×1。整理成一份飞书文档，每位候选人独立成一个 Section。”

桌面上的零散简历

这个任务跨越两层能力：Computer Use 负责在用户电脑上读取 Resume 文件夹中的本地文件并理解每份简历的内容，飞书 CLI 负责将最终的候选人分析与面试题结构化写入飞书文档。Agent 完成后将文档链接回传至原对话，用户点击即可查看。

成功推送制定简历到飞书

Case 3：操作本地应用与系统设置

Query： “帮我打开系统设置，找到锁定屏幕，把不活跃时启动屏幕保护程序设为永不。然后打开 Pocket 客户端执行每日定时任务，完成后给我一张截图。”

Step 1：关闭屏幕保护程序

Step 2：设置每日定时任务

由于系统偏好设置没有公开的命令行接口，这些任务只能通过图形界面完成。Agent 基于 Computer Use 打开系统设置、定位到“锁定屏幕”面板、调整下拉菜单，随后启动客户端执行任务，最后截图回传。整个过程可以在 IM 中完整查看 Agent 的每一步操作。

飞书定时任务成功创建

从 Agent 可以操作电脑，到 Agent 可以稳定、准确、安全地完成用户交付的任务，中间是大量的工程工作。以下展开分享一些我们实现过程中的技术思考。

把工具拆开，而不是给 Agent 一个万能的 computer

一种常见的 Computer Use 实现方式是提供一个统一的 computer 工具，所有操作——无论是切换窗口、点击按钮还是操作网页——都通过像素坐标完成。这种做法结构简单，但在真实任务中精度和可靠性都难以保证。

我们将桌面操作拆成四个独立的工具域：

Desktop Control：截图、鼠标操作（含修饰键组合）、键盘输入、滚动、拖拽
Window Manager：窗口列表查询、聚焦、最小化/最大化、关闭、移动与缩放、应用启动
Browser Engine：DOM 操作、CSS 选择器定位、JavaScript 执行、结构化导航
Clipboard：系统剪贴板读写

这样做的原因是：不同任务的最优执行路径不一样。窗口管理可以直接调用系统 API，不需要让模型先截图再识别“最小化按钮在哪”；浏览器中的元素通过 DOM 选择器定位，比让模型数像素点击更精准；跨应用的数据传递通过剪贴板完成，比反复截图读取更可靠。

这套工具矩阵再叠加 lark-cli、wecom-cli、mmx 三套平台 CLI，以及 Bash 与文件系统工具，共计 60+ 个工具。Agent 在执行任务时，会根据任务类型选择最合适的工具路径。

视觉感知：让模型在不同屏幕上都能看清

Computer Use 的第一步是让模型“看到”屏幕，但用户的显示器千差万别——从 MacBook 的 Retina 屏到外接 4K 显示器，从 1080p 到普通 720p，物理分辨率甚至能跨越一个数量级。同一张截图，在不同设备上呈现给模型的细节密度完全不同。如果不做处理，模型会在高分辨率的屏幕上因为信息过载漏看元素，也会在低分辨率的屏幕上因为画面糊了点错按钮。

我们在两个层面解决了这个问题：

坐标系统的统一：模型不直接输出像素坐标，而是输出一个 0 到 1 之间的相对位置，由系统根据当前屏幕分辨率换算为真实坐标执行。模型不需要知道用户用的是什么屏幕，操作精度在所有设备上保持一致；

截图的自适应处理：我们会先以物理像素级精度截取屏幕，再根据模型的视觉输入上限动态缩放，确保模型收到的画面既清晰可读、又不超出处理范围。无论用户用的是 MacBook Retina 还是外接 4K 显示器，模型看到的都是经过适配的最优尺寸。

截图-验证-行动循环：

让多步任务可靠推进

单步操作的准确性只是基础，真实任务往往需要十几步甚至上百步连续操作才能完成。任何一步的错误，比如坐标识别偏差、窗口未及时聚焦、意外弹窗遮挡等，都可能导致后续步骤全部失败。

我们给每一步桌面操作都接上了一个验证环节：操作执行完，立刻自动截图，让模型看一眼“刚才那一步真的做到了吗”。如果符合预期就推进下一步；如果没有，则进入诊断流程，识别失败原因，并尝试替代方案（比如鼠标点不到的按钮换成键盘快捷键）。如果在一定的重试次数内仍然无法解决，Agent 会主动告诉用户具体卡在哪一步，而不是继续盲目尝试。

这个循环让 Agent 在真实任务中的失败率显著下降。多步任务里偶发的小问题被就地处理，不会累积成最后的全盘失败。

权限与远程授权

Agent 能直接操作用户电脑，意味着必须有清晰的权限边界——尤其是当用户不在电脑前、通过 IM 远程发出指令时。删一个文件、改一个系统设置，这些动作如果没有用户确认就直接执行，远程操控的便利就变成了风险。

我们把权限管理也放到了 IM 里。当 Agent 准备执行文件删除等操作时，会暂停下来，把这一步的具体内容推送到用户的 IM 对话里，在飞书和 Slack 中以卡片或交互组件呈现，用户点一下就能授权或拒绝；微信等不支持交互组件的平台则通过文本指令完成授权。任务执行过程中，用户也可以随时发送指令中止 Agent。

这样一来，即使用户不在电脑前，每一个关键动作也都经过用户本人的确认。用户能对 Agent 的每一个关键动作保持完整的知情权与控制权。

这次更新是我们在 Agent 基础能力上迈出的一步。CLI 覆盖可被 API 化的部分，Computer Use 接管需要依赖图形界面的部分，IM 作为统一的指令入口将两者随时唤起——Agent 能触达的工作范围由此扩展到用户真实的电脑桌面。

Pocket 和 Computer Use 作为能力而言，仍处于早期。模型在复杂界面下的识别精度、长任务中的稳定性、对新软件的泛化能力，都还有大量工程工作需要持续推进。我们会在后续版本里持续打磨。

MiniMax Agent 桌面端下载：https://agent.minimaxi.com/download

Intelligence with Everyone.

本文转载自MiniMax公众号，原文地址https://mp.weixin.qq.com/s/dmF0PRj6OMQ-TWAIoc-kqg