写代码只是软件工程的一部分。
你让 Qoder 帮你实现了一个页面,代码写完了。然后呢?你得自己打开模拟器走一遍流程,看看跳转对不对。Xcode 编译报错了,你得自己去界面里翻报在哪一行。要抓个接口看返回值,你得自己打开 Charles 翻请求。要改个系统代理,你得自己点进系统设置一项一项填。
这些事情都发生在 Qoder Desktop 外部,只能靠鼠标键盘完成。
Qoder 之前发布了 Browser Use,让智能体可以操作浏览器。Computer Use 把自主操作能力继续向前,从浏览器延伸到整个桌面。你电脑上能看到的界面、打开的应用,Qoder 现在都可以帮你操作。
不是在“猜”你的屏幕
市面上大多数 Computer Use 方案(比如 Claude)走纯视觉路线:对屏幕截图,让模型根据像素猜坐标,然后点一下。这种方式不太靠谱。分辨率一变,坐标就偏了;窗口一移,目标就丢了。遇到动态布局,就更容易出错。
Qoder 内置的 Computer Use 智能体摒弃了这种实现方式。
Qoder 直接读取界面的结构化信息,不靠截图猜坐标。每个按钮、输入框、菜单项都有明确的身份和编号,操作时通过编号精准定位。智能体要点的就是那个按钮,不存在“好像是该点这个”的问题。分辨率变了,编号还在;窗口移了,编号还在。
整个过程是一个持续的闭环:观察屏幕,理解当前界面处在什么状态,决定下一步该做什么,执行操作,然后再观察一次。每一步都以上一步的实际结果为依据,不是按预设脚本跑。遇到弹窗、加载延迟、界面跳转这些真实应用里常见的状况,Qoder 会自己调整策略继续往下走。
操作也不会抢占你的前台。传统方案每次都要把目标窗口拉到最前面,你正在做的事反复被打断。Qoder 除了首次启动目标应用可能短暂调到前台,后续操作都在后台完成。你在写文档,智能体在后台帮你在模拟器里跑流程。你去吃午饭,它会继续帮你调试。
目前行业内真正采用结构化界面感知做桌面操控的产品很少。我们和同类产品在一组相同的 Mac 桌面任务上做了多轮对比测试,相同模型、相同环境。
结果:Qoder 的任务完成率高出约 14 个百分点,操作步数少约 23%。

用 /browser 还是 /computer-use
在 Qoder Desktop 的 Editor 视窗和 Quest 视窗中输入 /,你会看到 browser 和 computer-use 两个智能体。 /browser 处理浏览器内的事
网页操作、localhost 项目预览、网页端工具。速度更快,token 消耗也低很多。能在浏览器里搞定的任务,优先用它。
/computer-use 处理桌面上的事
原生应用(Xcode、Figma Desktop、Postman、模拟器)、跨应用工作流、只有 GUI 界面的系统设置。必须在桌面上完成的操作,交给它。
判断标准也很简单: 如果目标操作有 CLI 或 API,直接走原有方式,效率最高; 在浏览器里(如调试 web 应用)就用 /browser; 必须在桌面上才用 /computer-use。
典型使用场景
Qoder 在桌面上能做的操作:点击、文字输入(对中文输入法做了专门适配)、键盘快捷键、滚动、拖拽、菜单操作,以及直接设置控件的值。基本上你用鼠标键盘能做的事,它都能做。
以下几个场景,用命令行或 API 都搞不定,只能在 GUI 里操作。
场景一:写完代码,自己去模拟器验证
“帮我把这个 SwiftUI 列表页的下拉刷新写了,写完在 iOS 模拟器里跑一遍,看看动画和加载状态对不对。有问题直接改,改完再跑一遍。”
这是 Computer Use 和 Coding Agent 配合最有意思的地方。智能体不只是把代码写完就结束了,它可以自己打开模拟器走完整流程,逐步点击并截取每个界面的结果。发现交互有问题,直接回来改代码,改完再去验证。以前这个闭环中间那段(打开应用、走流程、看效果)全靠你手动完成,现在智能体自己就能跑通。没有 API 能告诉你”动画看起来对不对”,视觉验证只能靠看屏幕。
场景二:定位 IDE 里的编译报错 “Xcode 编译报错了,帮我看看报在哪一行,把错误上下文截图发我。”
编译错误的完整上下文在 IDE 界面里,终端日志只有一部分。智能体在 IDE 里找到报错位置,把关键信息截出来。
场景三:操作抓包工具 “打开 Charles,找到刚才那个请求,把 Response Body 复制出来。”
Charles、Postman 这类工具主要靠界面操作。定位请求、展开详情、复制内容,只能在界面里完成。
场景四:跨应用搬运数据 “把终端里这段报错日志整理成表格,贴到备忘录里。”
涉及多个桌面应用之间的数据流转,没有统一接口可以串起来。智能体在后台逐个操作,全程不打断你的前台工作。
场景五:用 Keynote 做个演示 “把当前文件夹下的那三张架构图按顺序插进 Keynote,每张图下面加一行说明,做成一个简单的 demo 演示。”
Keynote 没有好用的命令行接口,排版、插图、加文字全靠界面操作。智能体在后台帮你搞定,你不用自己来回拖图调位置。
只要是你能在屏幕上看到、用鼠标键盘操作的事,智能体都可以试试。
快速使用
在 Qoder 输入框中输入 /computer-use,用自然语言描述任务。会话中可以实时看到智能体的截图和操作进度,随时打断或者补充说明。Editor Window 的所有模式和 Quest Window 的 Experts 模式都支持。系统要求 macOS 14(Sonoma)或更高版本。
首次启用时,Qoder 会弹出引导窗口,请求辅助功能和屏幕录制两项系统权限。点击「打开设置」后按提示完成授权即可。


启用后,智能体可以像你一样使用电脑上的其他软件。桌面操作(发消息、删文件)可能无法撤销,屏幕内容会被截图用于感知界面。在 Qoder 设置的 Computer Use Agent 里可以选择执行策略:默认是「Ask every time」每次操作前请你确认,也可以切到「Auto-run」自动执行,或者「Disabled」完全关掉。
Computer Use 智能体 beta 版已在 Qoder Desktop v1.2.2 中上线。
打开 Qoder Desktop,点击左上角检查更新,升到到最新版,然后在输入框里输入 /computer-use。快去试试吧。
