Qoder Computer Use 上线，可以操作你电脑上的任意应用了

写代码只是软件工程的一部分。

你让 Qoder 帮你实现了一个页面，代码写完了。然后呢？你得自己打开模拟器走一遍流程，看看跳转对不对。Xcode 编译报错了，你得自己去界面里翻报在哪一行。要抓个接口看返回值，你得自己打开 Charles 翻请求。要改个系统代理，你得自己点进系统设置一项一项填。

这些事情都发生在 Qoder Desktop 外部，只能靠鼠标键盘完成。

Qoder 之前发布了 Browser Use，让智能体可以操作浏览器。Computer Use 把自主操作能力继续向前，从浏览器延伸到整个桌面。你电脑上能看到的界面、打开的应用，Qoder 现在都可以帮你操作。

不是在“猜”你的屏幕

市面上大多数 Computer Use 方案（比如 Claude）走纯视觉路线：对屏幕截图，让模型根据像素猜坐标，然后点一下。这种方式不太靠谱。分辨率一变，坐标就偏了；窗口一移，目标就丢了。遇到动态布局，就更容易出错。

Qoder 内置的 Computer Use 智能体摒弃了这种实现方式。

Qoder 直接读取界面的结构化信息，不靠截图猜坐标。每个按钮、输入框、菜单项都有明确的身份和编号，操作时通过编号精准定位。智能体要点的就是那个按钮，不存在“好像是该点这个”的问题。分辨率变了，编号还在；窗口移了，编号还在。

整个过程是一个持续的闭环：观察屏幕，理解当前界面处在什么状态，决定下一步该做什么，执行操作，然后再观察一次。每一步都以上一步的实际结果为依据，不是按预设脚本跑。遇到弹窗、加载延迟、界面跳转这些真实应用里常见的状况，Qoder 会自己调整策略继续往下走。

操作也不会抢占你的前台。传统方案每次都要把目标窗口拉到最前面，你正在做的事反复被打断。Qoder 除了首次启动目标应用可能短暂调到前台，后续操作都在后台完成。你在写文档，智能体在后台帮你在模拟器里跑流程。你去吃午饭，它会继续帮你调试。

目前行业内真正采用结构化界面感知做桌面操控的产品很少。我们和同类产品在一组相同的 Mac 桌面任务上做了多轮对比测试，相同模型、相同环境。

结果：Qoder 的任务完成率高出约 14 个百分点，操作步数少约 23%。

用 /browser 还是 /computer-use

在 Qoder Desktop 的 Editor 视窗和 Quest 视窗中输入 /，你会看到 browser 和 computer-use 两个智能体。

/browser 处理浏览器内的事

网页操作、localhost 项目预览、网页端工具。速度更快，token 消耗也低很多。能在浏览器里搞定的任务，优先用它。

/computer-use 处理桌面上的事

原生应用（Xcode、Figma Desktop、Postman、模拟器）、跨应用工作流、只有 GUI 界面的系统设置。必须在桌面上完成的操作，交给它。

判断标准也很简单：

如果目标操作有 CLI 或 API，直接走原有方式，效率最高；
在浏览器里（如调试 web 应用）就用 /browser；
必须在桌面上才用 /computer-use。

典型使用场景

Qoder 在桌面上能做的操作：点击、文字输入（对中文输入法做了专门适配）、键盘快捷键、滚动、拖拽、菜单操作，以及直接设置控件的值。基本上你用鼠标键盘能做的事，它都能做。

以下几个场景，用命令行或 API 都搞不定，只能在 GUI 里操作。

场景一：写完代码，自己去模拟器验证

“帮我把这个 SwiftUI 列表页的下拉刷新写了，写完在 iOS 模拟器里跑一遍，看看动画和加载状态对不对。有问题直接改，改完再跑一遍。”

这是 Computer Use 和 Coding Agent 配合最有意思的地方。智能体不只是把代码写完就结束了，它可以自己打开模拟器走完整流程，逐步点击并截取每个界面的结果。发现交互有问题，直接回来改代码，改完再去验证。以前这个闭环中间那段（打开应用、走流程、看效果）全靠你手动完成，现在智能体自己就能跑通。没有 API 能告诉你”动画看起来对不对”，视觉验证只能靠看屏幕。

场景二：定位 IDE 里的编译报错

“Xcode 编译报错了，帮我看看报在哪一行，把错误上下文截图发我。”

编译错误的完整上下文在 IDE 界面里，终端日志只有一部分。智能体在 IDE 里找到报错位置，把关键信息截出来。

场景三：操作抓包工具

“打开 Charles，找到刚才那个请求，把 Response Body 复制出来。”

Charles、Postman 这类工具主要靠界面操作。定位请求、展开详情、复制内容，只能在界面里完成。

场景四：跨应用搬运数据

“把终端里这段报错日志整理成表格，贴到备忘录里。”

涉及多个桌面应用之间的数据流转，没有统一接口可以串起来。智能体在后台逐个操作，全程不打断你的前台工作。

场景五：用 Keynote 做个演示

“把当前文件夹下的那三张架构图按顺序插进 Keynote，每张图下面加一行说明，做成一个简单的 demo 演示。”

Keynote 没有好用的命令行接口，排版、插图、加文字全靠界面操作。智能体在后台帮你搞定，你不用自己来回拖图调位置。

只要是你能在屏幕上看到、用鼠标键盘操作的事，智能体都可以试试。

快速使用

在 Qoder 输入框中输入 /computer-use，用自然语言描述任务。会话中可以实时看到智能体的截图和操作进度，随时打断或者补充说明。Editor Window 的所有模式和 Quest Window 的 Experts 模式都支持。系统要求 macOS 14（Sonoma）或更高版本。

首次启用时，Qoder 会弹出引导窗口，请求辅助功能和屏幕录制两项系统权限。点击「打开设置」后按提示完成授权即可。

启用后，智能体可以像你一样使用电脑上的其他软件。桌面操作（发消息、删文件）可能无法撤销，屏幕内容会被截图用于感知界面。在 Qoder 设置的 Computer Use Agent 里可以选择执行策略：默认是「Ask every time」每次操作前请你确认，也可以切到「Auto-run」自动执行，或者「Disabled」完全关掉。

Computer Use 智能体 beta 版已在 Qoder Desktop v1.2.2 中上线。

打开 Qoder Desktop，点击左上角检查更新，升到到最新版，然后在输入框里输入 /computer-use。快去试试吧。

{{userData.name}}已认证

Qoder Computer Use 上线，可以操作你电脑上的任意应用了

说句话就能出设计稿，还能直接交付工程代码？Design Desk实测体验

AI工具测评：我用阶跃AI桌面助手重构了产品工作流（内含邀请码）

我把GPT Image 2 出的UI图，用Codex + Figma 插件一键转可编辑 UI 和 HTML

腾讯ima知识库也养龙虾了？香不香，我来帮你测！

什么是 GEO、如何做 GEO？