文 | 王吉伟
- 聊一聊 Computer Use Agent,Claude 3.5 Sonnet 到 Manus 的技术演进
- 什么是 Computer Use Agent?都有哪些产品和项目?一篇文章看明白
- 想要了解 Computer Use Agent,看这一篇文章就够了
- 从 Claude 3.5 Sonnet 到 Operator 到 Manus,Computer Use Agent 是个啥?
- 一文读懂什么是 Computer Use Agent,电脑使用智能体即将爆发
Manus 的火爆带热了多个技术概念,Computer Use Agent 就是其中之一。但要探讨这种“ 电脑使用” 智能体,还得从 Claude 3.5 Sonnet 说起。
2024 年 10 月,Anthropic 发布了 Claude 3.5 Sonnet,首次将“Computer Use” 能力推向公众视野,掀起了一波关于“AI 操作电脑” 的热潮。当时,这一功能被描述为“ 突破性” 的技术:开发人员可以通过 API 指导 Claude 像人类一样使用计算机—— 查看屏幕、移动光标、点击按钮、输入文本。
能操作电脑的智能体火了后,国内的智谱 AutoGLM 也火过一段时间,并且在二级市场成功催生了 Computer Use 相关的概念股。
只是热潮过后,讨论逐渐冷却。原因何在?一方面,这项功能仍处于公测阶段,体验上“ 笨拙且易出错”,需要开发者自行部署,普通用户难以直接上手;另一方面,其实际应用场景尚未完全打开,更多停留在概念验证阶段。
紧随其后,2025 年 1 月,OpenAI 推出了 Operator 及其核心模型 Computer-Using Agent(CUA),将这一领域推向新高度。与 Anthropic 的“Computer Use” 术语不同,OpenAI 采用了“CUA” 这一更具技术感的命名。
Operator 被定义为“ 通过强化学习融合 GPT-4o 视觉能力与高级推理的模型”,能够直接与图形用户界面 (GUI) 交互,无需依赖特定 API。OpenAI 强调,CUA 不仅能处理浏览器任务 (如订票、购物),还具备扩展至桌面应用的潜力,展现了从“ 对话 AI” 向“ 行动 AI” 的转型趋势。但仅限 $200/月的 Pro 用户使用门槛,仍然劝退了大部分人。
Operator 的发布与 CUA 概念的推广,仍然没有激起多大水花。
直到 2025 年 3 月,Monica.im 团队发布了号称“ 全球首款通用型 AI Agent” 的 Manus,进一步将 Computer Use Agent 的概念推向产品化。Manus 的宣传语更是直击用户痛点:独立思考、规划并执行复杂任务,覆盖 40 多个领域。 它不仅能处理文件、分析数据,还能创作内容,甚至在 GAIA 基准测试中以 86.5% 的准确率碾压竞品,成本却仅为对手的 1/10。
相比 Claude 的实验性和 Operator 的高不可攀,Manus 更注重用户体验与实用性,目前虽处于内测阶段,但已计划开源部分模型,显示出更大的野心。只是,大部分人到现在还拿不到邀请码。
需要说明的是,Computer Use Agent 玩家已经有不少。比如 Google DeepMind 推出的基于 Gemini 2 的 Project Mariner 基于,主攻浏览器自动化;微软则通过 Windows Agent Arena 探索多模态 OSAgent,同时微软还有 UFO、OmniParser 等多个开源项目。智谱的 GLM-PC 则以 CogAgent 为核心,支持跨平台任务。
扩展阅读:还拿不到 Manus 邀请码?试试这几款开箱即用的 computer use 智能体,附教程
这些项目各有侧重,但都指向一个共同目标:让 AI 成为真正能够操作一切的数字助手。当然开源社区也不甘落后,像 OpenInterpreter、OpenAdapt 等早期项目层出不穷。而快速复刻 Manus 的 OpenManus、OWL 等项目也正在快速迭代中,并有更多项目正在开发。
这些进展不仅体现了 AI 从“ 理解” 到“ 执行” 的转变,也引发了我们对未来人机交互的想象。说了那么多,到底什么是 Computer Use Agent?目前都有哪些产品和开源项目?有没有相关的学术论文可以学习?这篇文章,王吉伟频道就给大家聊聊这些,也欢迎大家在文末留言讨论。
从 Claude 3.5 Sonnet 谈起
Anthropic 在 2024 年 10 月发布发布 Claude 3.5 Sonnet 的时候,重点介绍了它的 computer use 能力。当时“ 能够操作电脑的模型” 火了很长一段时间,但后来就偃旗息鼓了。这是为什么呢?主要在于大家对它的感知并不强,因为需要部署,不懂点代码的人都体验不了。
在 Claude 3.5 的发布中,Anthropic 对 computer use 做了以下介绍:
公开测试版中引入了一项突破性的新功能:计算机使用 (computer use)。今天在应用编程接口上,开发人员可以指导克劳德像人们一样使用计算机—— 通过看屏幕、移动光标、点击按钮和键入文本。
Claude 3.5 Sonnet 是第一个在公开测试版中提供计算机使用的前沿人工智能模型。在现阶段,它仍处于试验阶段—— 有时很麻烦,容易出错。我们将提前发布计算机使用情况,以供开发人员反馈,并预计随着时间的推移,该功能将迅速改进。
作为首款支持此能力的前沿模型,Claude 3.5 Sonnet 在 OSWorld 基准测试中取得了 14.9% 的成功率,虽然远低于人类的 70-75%,但已显著领先同类 AI 的 7.8%。
其实 Anthropic 到目前推出的还只是 CUA 的 demo 体验项目,王吉伟频道在去年 11 月体验过,它需要通过 docker 进行部署。懂点代码感兴趣的小伙伴,可以部署体验一下。
项目地址:https://github.com/anthropics/anthropic-quickstarts
而 OpanAI 在发布 Operator 以后,重点介绍了计算机使用 Agent。在用词方面,OpanAI 与 Anthropic 稍有区别,用的是 Computer-Using Agent (CUA)。原文如下:
Operator(opens in a new window) 是一个可以转到 Web 为用户执行任务的 Agent,而为它提供动力的正是 CUA,这是一种过强化学习将 GPT-4o 的视觉能力与高级推理相结合的模型。CUA 经过训练,可以像人类一样与图形用户界面 (GUI) 交互,即人们在屏幕上看到的按钮、菜单和文本字段。这使它能够灵活地执行数字任务,而无需使用特定于作系统或 Web 的 API。
CUA 建立在多模态理解和推理交叉点的多年基础研究之上。通过将高级 GUI 感知与结构化问题解决相结合,它可以将任务分解为多步骤计划,并在出现挑战时自适应地自我纠正。此功能标志着 AI 开发的下一步,允许模型使用人类每天依赖的相同工具,并为大量新应用打开大门。
在官方介绍中,这种设计让 CUA 在 OSWorld 中拿下 38.1% 的成功率,在 WebVoyager 中更是高达 87%,接近人类水平。OpenAI 强调,CUA 不仅能处理浏览器任务 (如订票、购物),还具备扩展至桌面应用的潜力,展现了从“ 对话 AI” 向“ 行动 AI” 的转型趋势。不过,Operator 目前仅限 $200/月的 Pro 用户使用,门槛依然不低。
CUA 依赖视觉模型和高级推理模型,两种能力也决定了 CUA 的能力。所以 Manus 发布之后,很多复刻它的开源项目比如 OpenManus 等目前在体验上还有所欠缺,在于大家在模型的选择上使用兼容 OpenAI Function Call 的模型,但在推理方面要差一些。
最近 OpenAI 还发布了集成至 Responses API 的工具包 Computer Use Tool,允许开发者调用模型生成的鼠标/键盘操作,覆盖网页和部分桌面应用场景。
Manus 是由 Monica.im 团队开发的一款通用型 AI 智能体,于 2025 年 3 月发布,旨在通过自主任务闭环能力直接交付复杂任务成果,而非仅提供建议。它采用多 Agent 架构,将任务拆解为子任务并执行,覆盖办公提效、数据分析、跨平台工具集成等多种场景,支持高精度动作捕捉和团队协作功能。
其规划 Agent 使用蒙特卡洛树搜索优化任务拆解效率,执行 Agent 调用多种工具完成任务,验证 Agent 则确保结果准确性。Manus 在 GAIA 基准测试中表现卓越,基础任务得分 86.5 分,中等难度任务得分 70.1 分,高难度任务得分 57.7 分,单任务成本仅为竞品的 1/10,展现了强大的任务执行能力,并且远超同期竞品。
Manus 的出现标志着 AI 智能体技术的新高度,其低代码化设计使用户无需编程即可搭建自动化流程。由于其强大的功能,开源社区迅速推出了多个复刻项目,如 OpenManus 和 OWL,它们分别由 MetaGPT 团队和 CAMEL AI 团队开发,支持网页浏览、文件操作、代码编写等任务,且在 GAIA 测试中表现优异。
Manus 及其复刻项目在办公效率提升、生活服务升级和专业领域支持等方面具有广泛的应用前景,有望在更多场景中发挥重要作用,推动 AI 技术的进一步发展。
从 Claude 3.5 Sonnet 到 Operator,再到 Manus,Computer Use Agent 的进化路径逐渐清晰。Claude 开启了这一领域的探索,强调视觉感知与 GUI 交互;CUA 则在推理与适应性上迈出关键一步;而 Manus 通过多 Agent 协作与成本优化,试图将技术落地到日常场景。
通过上面的介绍,相信大家对 computer use 已经有了初步认识。
CUA 的定义与工作原理
结合各种文献以及科技博文,可以为 Computer Use Agent 下一个简单的定义。
Computer Use Agent 是一种能够过其图形用户界面 (GUI) 与计算机应用程序交互的 AI 系统。旨在通过计算机应用程序的 GUI 控制计算机应用程序并与之交互。这些 Agent 可以模仿人类用户操作计算机的行为,执行单击按钮、填写表单、单击按钮、导航菜单和滚动等任务。
这些 Agent 由高级 AI 模型提供支持,通常将大型语言模型 (LLM) 与多模态视觉功能相结合,使用屏幕感知、通过语言模型做出决策以及模拟鼠标/键盘输入来执行任务。例如,OpenAI 的 Operator 由其计算机使用 Agent(CUA) 模型提供支持,可以通过处理屏幕截图并与 Web 浏览器交互来在线预订音乐会门票或订购杂货。
它的工作原理,如下:
CUA 处理屏幕截图中的原始像素数据,以了解屏幕上发生的情况。这使它能够像人类用户一样与按钮、菜单和文本字段交互,无需特定于平台的 API。其过程可分为三个步骤:
- 感知:CUA 截取计算机屏幕的屏幕截图,以将数字环境的内容置于上下文中。这些视觉输入构成了决策的基础。
- 推理:利用思维链推理,CUA 评估其观察结果并跟踪中间步骤的进度。通过分析过去和当前的屏幕截图,该系统可以动态地适应新的挑战和不可预见的变化。
- 行动:CUA 使用虚拟鼠标和键盘执行键入、单击和滚动等任务。对于敏感任务,例如处理登录凭证或解决 CAPTCHA 质询,系统会寻求用户确认以确保安全性。
这种结构化的工作流程使 CUA 能够处理复杂的多步骤任务,并在遇到错误时进行自我纠正,使其成为数字问题解决的强大工具。
在主要功能和基准方面,OpenAI 对 CUA 在计算机使用和基于浏览器的任务方面都树立了新的基准,证明了它在不同环境中的灵活性。它的性能已经使用 OSWorld、WebArena 和 WebVoyager 等平台进行了评估:
- OSWorld:CUA 在一般计算机使用任务中取得了 38.1% 的成功率,远超之前 22.0% 的先进 (SOTA) 结果。
- WebArena:在这个模拟电子商务和内容管理中实际任务的基准测试中,CUA 得分为 58.1%,优于之前的 SOTA 36.2%。
- WebVoyager:测试实时网站交互 (例如 Amazon、GitHub),CUA 与人类表现相匹配,成功率为 87%。
这些基准测试突出了 CUA 使用屏幕、鼠标和键盘的单一通用界面在数字环境中有效运行的能力。但是,在更复杂的场景中仍有改进的空间,例如人类成功率更高的 WebArena 任务。
CUA 最引人注目的方面之一是它能够将任务分解为多步骤计划并在面临挑战时动态适应。例如,如果网页无法正确加载或任务偏离预期路径,CUA 可以实时调整其策略。这种灵活性通过将 GUI 感知与结构化问题解决相结合而变得很有价值。
需要说明的是,Computer Use Agent 和 GUI Agent 经常被混淆。两种智能体各有其独特的优势和适用场景:Computer Use Agent 更适合处理复杂的多任务和跨平台操作,GUI Agent 则在图形用户界面交互和精准操作方面表现出色。还有一些项目,则是两种技术融合型的智能体。关于 GUI Agent,我会在后面的文章中跟大家介绍。
CUA 相关的产品
除了前文提到的 Claude 的 Computer Use 、Operator、Manus ,目前对外公布的已经产品化\应用化的 CUA 产品,还有以下几个。
1、Project Mariner
Google DeepMind 推出的 Project Mariner,构建于 Google 的 Gemini 2 模型之上。该公司在 12 月展示了 Mariner,但称其为 “ 早期研究原型”,并表示目前仅向 “ 受信任的测试人员” 提供该工具。
编辑
Project Mariner 目前仅在 Chrome 浏览器中运行,并且仅在活动选项卡中运行,用户执行其他任务时,它不会在后台运行。虽然这个要求似乎在某种程度上违背了拥有一个节省时间的 AI 助手的目的,但它可能只是这个早期开发阶段的临时条件。
2、Flowith
Flowith 是一款类似 Manus 的 AI Agent 产品,旨在通过其独特的节点式交互方式和强大的 AI 功能,为用户提供高效、多线程的 AI 交互体验。它不仅支持多种先进的 AI 模型,还提供了知识管理、内容创作、自动化任务执行等功能,适合内容创作者、研究人员、企业员工等多类用户
https://flowith.io
3、Google AI Studio
Google AI Studio 是一个集成了多种 AI 功能且易于使用的 AI 开发平台,专注于简化 AI 模型的创建、优化和部署流程。该应用旨在降低 AI 开发的门槛,使开发者无需深厚的机器学习背景也能快速上手,同时为专业开发者提供强大的工具支持,以满足复杂项目的需求,快速实现 AI 驱动的创新项目。
Google AI Studio 有一个功能是与程序互动,通过文字或者语音让 Google AI Studio 通过浏览器或者电脑做一些自动化的操作。
体验地址:https://aistudio.google.com/prompts/new_chat
4、Midscene.js
Midscene.js 是一个 Web 自动化开源项目,旨在让 AI 成为浏览器操作员。用户只需用自然语言描述需求,AI 就能操作网页、验证内容和提取数据。它支持多种模型,包括 UI-TARS 和 Qwen2.5-VL 等开源模型,适用于 UI 自动化场景。
Midscene Chrome 扩展还支持一种桥接模式,允许用户使用本地脚本来控制 Chrome 的桌面版本。下面是关于桥接模式的说明文档,感兴趣的小伙伴可以自行探索。
https://midscenejs.com/bridge-mode-by-chrome-extension.html
5、智谱 GLM-PC
GLM-PC 是智谱公司推出的一款基于多模态大模型 CogAgent 的电脑智能体。它能够像人类一样“ 观察” 和“ 操作” 计算机,协助用户高效完成各类电脑任务,如文档处理、网页搜索、信息整理、社交互动等。
目前 GLM-PC 已经迭代升级到基于智谱多模态大模型 CogAgent 的 1.1.1 版本,推出“ 深度思考” 模式,同时支持 Windows 和 Mac 系统。大家可以通过以下网址,访问 GLM-PC 官网,下载适合自己系统的软件版本,这里也附上安装指南。
下载:https://cogagent.aminer.cn/home#/downloads
CUA 相关的开源项目
事实上,在 Manus 火爆之前已经有不少 CUA 相关的开源项目,这里列举一些。
1、OpenInterpreter
OpenInterpreter 是一个自然语言接口工具,允许大型语言模型在本地运行代码,支持 Python、JavaScript 等多种语言。用户可以通过类似 ChatGPT 的界面与计算机互动,执行文件编辑、浏览器控制和数据分析等任务。
项目链接:https://github.com/OpenInterpreter/open-interpreter
2、OpenAdapt
OpenAdapt 是一个开源的行为克隆和模仿学习框架,旨在帮助 AI 通过观察人类行为来学习任务。它支持多种应用,包括自动化任务和复杂操作的简化。
项目链接:https://github.com/llamafactory/openadapt
3、OpenInterface
OpenInterface 是一个开源项目,提供简洁的 API 接口,支持多种编程语言和框架,帮助开发者快速实现功能集成和自动化任务。
项目链接:https://github.com/OpenInterface
4、OmniParser
OmniParserV2,能够将大型语言模型 (LLM) 转化为具备计算机操作能力的智能 Agent。通过视觉解析技术,将用户界面 (UI) 的屏幕截图转换为结构化数据,使 LLM 能够理解和操作图形用户界面 (GUI),从而实现跨平台的自动化任务。
项目链接:https://github.com/microsoft/OmniParser
5、E2B Desktop Sandbox
E2B Desktop Sandbox 是一个桌面沙盒环境,专为开发者设计,提供安全的测试和开发平台,支持多种操作系统和开发工具。
项目链接:https://github.com/E2B-Cloud/E2B-Desktop-Sandbox
6、Claude Computer Use Demo
该项目为 MacOS 提供了 Claude 计算机使用的演示工具,帮助用户快速上手 AI 驱动的计算机操作。
项目链接:https://github.com/AnthropicComputerUse
7、Computer Use - OOTB
提供开箱即用的计算机使用体验,支持多种操作系统,旨在简化用户与计算机的交互。
项目链接:https://github.com/AnthropicComputerUse
8、claude-minecraft-use
将 Claude 集成到 Minecraft 中,提供 AI 辅助功能,帮助玩家在游戏中实现自动化任务和复杂操作。
项目链接:https://github.com/ObservedObserver/claude-minecraft-use
9、Grunty
Grunty 是一个开源的 AI 工具,支持多种任务自动化,适用于简单和复杂的操作。
项目链接:https://github.com/Grunty
10、Self-Operating Computer Framework
一个自运行计算机框架,支持自动化操作,适用于需要低干预的复杂任务。
项目链接:https://github.com/SelfOperatingComputerFramework
11、Anthropic Computer Use (for Mac)
Anthropic 为 Mac 设计的计算机使用工具,提供 AI 驱动的交互体验。
项目链接:https://github.com/anthropics/anthropic-quickstarts
12、Cybergod
一个开源的 AI 驱动工具,支持多种应用,包括自动化任务和复杂操作。
项目链接:https://github.com/Cybergod
13、Bytebot
一个轻量级的 AI 机器人框架,适用于快速开发和部署,高级计算机控制。
项目链接:https://github.com/Bytebot
14、UI-Act
提供用户界面自动化操作的工具,支持多种操作系统和应用。
项目链接:https://github.com/UIAct
15、Upsonic
支持 MCP 的可靠 Agent 框架,集成浏览器使用和计算机使用。
项目链接:https://github.com/upsonic/upsonic
16、Grunty
计算机控制 Agent,任务自动化焦点。
项目链接:https://github.com/suitedaces/computer-agent
17、Cua
计算机使用接口和 Agent
项目链接:https://github.com/trycua
18、ScreenAgent
一个由视觉语言模型驱动的计算机控制 Agent 项目。它创建了一个与真实计算机屏幕交互的环境,Agent 可通过鼠标和键盘操作观察屏幕截图并控制 GUI。
项目链接:https://github.com/niuzaisheng/ScreenAgent
19、OpenManus
由 MetaGPT 团队开发的开源复刻版 Manus,旨在复刻并改进 Manus 的核心功能,提供无需邀请码、可本地化部署的智能体解决方案。该项目基于模块化设计,支持多种语言模型 (如 GPT-4、Claude 3.5、Qwen VL Plus 等) 和工具链。采用 ReAct(推理与行动) 框架,将复杂任务分解为可执行的子步骤,并动态协调工具调用。提供实时反馈机制,用户可以直观地看到 AI 的思考过程和任务执行进度。
项目链接:https://github.com/OpenManus/OpenManus
20、OWL
OWL(Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation) 是由 CAMEL-AI 团队开发的开源多智能体协作框架,旨在复刻并超越 Manus 的核心功能。OWL 专注于通过多智能体协作实现任务自动化,其目标是彻底变革 AI 智能体解决现实任务的方式。
项目链接:https://github.com/camel-ai/owl
21、OpenHands
OpenHands 是一个由 AI 驱动的软件开发代理平台,核心定位是“ 让 AI 智能体成为全栈开发者”。它能够执行代码修改、命令运行、网页浏览、API 调用,甚至可以从 StackOverflow 复制代码片段。
项目链接:https://github.com/All-Hands-AI/OpenHands
22、Open-Computer-Use
由 E2B 桌面沙盒支持并由开源 LLMs 控制的
安全云 Linux 计算机。它通过键盘、鼠标和 shell 命令操作计算机,支持 10 + LLMs,并可直播沙盒显示。
项目链接:https://github.com/e2b-dev/open-computer-use
23、Clevrr Computer
Anthropic 的 Computer Use 的开源实现,旨在使用 PyAutoGUI 库代表用户执行精确高效的系统作。它可以自动化键盘、鼠标和屏幕交互,同时确保每项任务的安全性和准确性。
项目链接:https://github.com/Clevrr-AI/Clevrr-Computer
Computer Use 相关的论文
本文,王吉伟频道精选了以下几篇论文,供大家参考。
1、计算机使用的人工智能 Agent:基于指令的计算机控制、GUI 自动化和运算符助手综述
AI Agents for Computer Use: A Review of Instruction-based Computer Control, GUI Automation, and Operator Assistants
从环境、交互和 Agent 的角度建立计算机控制 Agent(CCA) 分类法的综合综述,分析了 86 个 CCA 和 33 个数据集
论文地址:https://arxiv.org/abs/2501.16150
2、OS Agent:关于用于一般计算设备的基于 MLLM 的 Agent 的调查
OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use
论文地址:https://openreview.net/pdf/ed2f5ee6b84c3b118cb953b6e750486dbd700419.pdf
3、UFO:用于 Windows 作系统交互的以 UI 为中心的 Agent
UFO: A UI-Focused Agent for Windows OS Interaction
UFO 是一种以 UI 为中心的创新 Agent,利用 GPT-Vision 功能满足 Windows 操作系统上应用程序的用户请求。满足用户请求方面表现出色,首个为 Windows 任务完成定制的 UIAgent。
论文地址:https://arxiv.org/abs/2402.07939
项目地址:https://github.com/microsoft/UFO
4、PC Agent:当你睡觉时,AI 工作 -- 进入数字世界的认知之旅
PC Agent: While You Sleep, AI Works -- A Cognitive Journey into Digital World
通过 PC Tracker 收集高质量人机交互轨迹,经两阶段认知完成管道转化,再由多 Agent 系统结合决策规划与视觉接地,实现复杂数字工作能力。
论文地址:https://arxiv.org/abs/2412.17589
5、OS-Copilot:迈向具有自我提升能力的通才计算机 Agent
OS-Copilot: Towards Generalist Computer Agents with Self-Improvement
OS-Copilot 框架,旨在构建能与操作系统中多种元素交互的通用 Agent。
论文地址:https://arxiv.org/abs/2402.07456
6、OSWorld:在真实计算机环境中为开放式任务对多模式 Agent 进行基准测试
OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
用于多模式 Agent 的可扩展真实计算机环境,支持跨多种操作系统 (如 Ubuntu、Windows 和 macOS) 的任务设置、基于执行的评估和交互式学习。
论文地址:https://arxiv.org/abs/2404.07972
7、Windows Agent Arena:大规模评估多模式 OS Agent
Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale
一个专注于 Windows 操作系统的可复现通用环境,旨在评估多模态操作系统 Agent 的性能。
8、ScreenAgent:Vision Language 模型驱动的计算机控制 Agent
ScreenAgent: A Vision Language Model-driven Computer Control Agent
一个由视觉语言模型 (VLM) 驱动的计算机控制 Agent。研究团队构建了一个让 Agent 与真实计算机屏幕交互的环境,Agent 可通过鼠标和键盘操作观察屏幕并操控图形用户界面。
论文地址:https://arxiv.org/abs/2402.07945
项目地址:https://github.com/niuzaisheng/ScreenAgent
后记:机遇和挑战并存
聊到这里,相信大家对 Computer Use Agent 已经有了全面的认知。从 Claude 3.5 Sonne 电脑使用的推出,到 OpenAI CUA 的性能飞跃,再到 Manus 的通用化落地,毫无疑问这个领域将在 2025 年迎来快速增长。越来越多产品和项目的出现,意味着它们不再是实验性项目,而是正在走进我们的数字生活。
未来几年,你可能只需说一句“ 帮我订明天去旧金山的机票”,一个智能体就会流畅地自动打开浏览器、搜索航班、填写信息,甚至在付款前提醒你确认。这种便利背后,是多模态 AI、链式推理和 GUI 交互技术的融合。Manus 的 86.5% GAIA 准确率和 OpenAI 在 WebVoyager 上 87% 的成功率,意味着 AI 正在从“ 听懂人话” 走向“ 干人活”。
但这条路才刚刚开始,挑战依然存在。现阶段的 Computer Use Agent 虽已能在浏览器中订票、在桌面上整理文件,但距离真正无缝接管复杂工作流仍有距离。比如,OSWorld 中人类 72.4% 的基准,提醒我们 AI 在通用场景下的鲁棒性仍需加强;WebArena 中 58.1% 的得分,也暴露了其在动态任务中的局限。即便是 Manus,其多智能体架构在面对极端场景时是否稳定,仍需更多实战检验。
隐私与安全问题更是不容忽视。这些智能体需要频繁截屏和操作用户界面,如何确保敏感数据不被滥用?OpenAI 和 Anthropic 都强调了用户确认机制和不训练用户数据的承诺,但随着技术普及,这类问题可能会成为公众关注的焦点。还有成本与门槛:Operator 的 $200/月订阅和 Manus 的内测限制,都提醒我们,真正全民化的 Computer Use Agent 还需要时间。
成功率与人类差距明显、部署复杂性高、隐私安全等问题亟待解决。当然,这些问题也正是未来突破的方向。
即便如此,Computer Use Agent 的市场潜力令人振奋。Manus 的多 Agent 架构或许只是个开始,结合自适应学习和更强的多模态能力,下一代 Agent 可能实现真正的“ 自主性”—— 无需用户确认,就能独立完成从计划到执行的全流程。
开源社区的活跃 (如 Midscene.js、OpenInterpreter) 也将加速这一进程,更多开发者正在参与到技术迭代中。随着边缘计算和隐私保护技术的进步,Agent 有望在本地运行,降低成本与安全风险。
五年后,你的电脑或者手机可能就会由一个安全、快速、稳定的 Agent 全权管理,从日程安排到数据分析,只需一句话即可搞定。
最后,放一个 Anthropic Computer Use 的演示视频动图,视频速度为三倍速。
王吉伟频道新书 《一本书读懂 AI Agent:技术、应用与商业》 已出版,轻松读懂系统掌握 AI Agent 技术原理、行业应用、商业价值及创业机会,欢迎大家关注。
更多精彩内容,关注钛媒体微信号 (ID:taimeiti),或者下载钛媒体 App
#Manus 带火电脑使用一文带你全面认知 Computer #Agent