5 月 6 日,Hugging Face 放出了一个叫 Open Computer Agent 的东西——免费、开源、云端跑,能像人一样操作电脑。

这不是又一个聊天机器人。它真的会打开 Firefox,帮你查地图、搜维基百科、甚至去 Hugging Face Space 上找图片生成模型给你画张图。听起来像 OpenAI 的 Operator?没错,但 Operator 要花钱,这个不要。

它到底怎么工作的

三个东西拼在一起:

smolagents:Hugging Face 自家的轻量级 Agent 框架。
Qwen2-VL-72B:阿里的视觉语言模型,720 亿参数。
E2B Desktop:云端虚拟桌面环境。

关键在 Qwen2-VL 的"grounding"能力——模型不光能看懂屏幕上有什么,还能精确定位每个元素的坐标,然后模拟鼠标点击。说白了,它看得见、点得着。

Aymeric Roucher(Hugging Face Agent 团队成员)说得很直白:"随着视觉模型越来越强,它们能驱动复杂的 Agent 工作流。"

现在能干啥,不能干啥

能干的:简单任务没问题。查个地图、搜个信息、生成张图片,都行。

干不了的:复杂任务还费劲。搜航班这种多步骤操作经常卡壳。遇到验证码直接歇菜——它解不了 CAPTCHA。反应也慢,有时候要等好几秒,偶尔还会卡死。

说白了,现在还是个"技术展示品",不是"生产力工具"。但展示的东西很重要。

为什么这对开源 Agent 生态是大事

门槛断崖式下降。

以前想搞一个能操控电脑的 AI Agent,你得有 OpenAI Operator 的订阅(每月 200 美元),或者自己搭一套 Computer Use 的环境。现在?打开浏览器,访问 Hugging Face 的页面,输入一句话就行。

这对开发者来说意义重大。你可以在上面测试自己的 Agent 想法,不用先掏钱、不用先配环境。

开源模型在 Agent 场景的能力被验证了。

Qwen2-VL-72B 是开源模型。它干的活——视觉理解 + 精准定位 + 操作执行——以前被认为是 GPT-4V 这种闭源模型的领地。现在开源模型也能撑起完整的 Agent 工作流。

这对整个开源社区是个强心针。意味着 Agent 不一定非得绑在某家大厂的 API 上。

"Computer Use"正在从概念变成基础设施。

a16z 最近发了篇文章,观点很明确:Computer-using Agent 是真正 Agent 的关键驱动力。它们的价值取决于两个因素——能接入多少工具,以及能不能在工具之间推理。Computer Use 同时拓展了这两个维度。

Hugging Face 这次做的事情,是把这条路径的早期形态免费开放给所有人。

马户科技怎么看

我们在做的也是 Agent——只不过不是操控电脑的 Agent,而是做内容、管客户、搞运营的 Agent。但底层逻辑是一样的:

Agent 的核心能力 = 感知环境 × 理解意图 × 执行动作。

Open Computer Agent 把"感知"这一步从文本扩展到了屏幕画面。这跟我们让 Agent "感知"飞书消息、客户数据、平台规则,本质上是同一件事——只是输入源不同。

对我们来说,几个值得关注的信号:

开源 Agent 框架(smolagents)在快速成熟。我们自己的 Agent 架构可以借鉴它的设计思路,尤其是"轻量 + 模块化"的哲学。

视觉模型的 grounding 能力有溢出效应。今天我们做的是文本内容 Agent,但未来如果需要 Agent "看"屏幕截图、"读"图片中的信息,这些能力可以直接拿来用。

免费 + 开源 = 生态爆发的前奏。Hugging Face 上的 Space 已经在排队了。当更多开发者涌入,围绕 Open Computer Agent 的插件、教程、二次开发会像雨后春笋一样冒出来。

市场数据

别觉得这只是技术圈的热闹:

65% 的企业已经在试验 AI Agent(KPMG 调研)。
AI Agent 市场规模预计从 2025 年的 78.4 亿美元增长到 2030 年的 526.2 亿美元(Markets and Markets)。
OpenAI、Google、Anthropic、Manus 等公司都在押注 Computer Use 赛道。

这不是泡沫,是赛道。

一句话总结:Hugging Face 的 Open Computer Agent 不是最好用的 Agent,但它是最容易够到的 Agent。对开源生态来说,"能用"比"好用"更重要——因为"能用"意味着有人会来改、有人会来用、有人会把它变成更好用的东西。

这才是开源的真正力量。


数据来源:TechCrunch(2025.5.6)、iThome(2025.5.7)、a16z "The Rise of Computer Use and Agentic Coworkers"、KPMG AI Agent 企业调研、Markets and Markets AI Agent 市场报告


常见问题

Q:Open Computer Agent 和 OpenAI Operator 有什么区别?

Operator 是 OpenAI 的付费产品(月费200美元),基于闭源模型,体验更流畅。Open Computer Agent 是 Hugging Face 的免费开源产品,基于 Qwen2-VL-72B 开源模型,目前速度较慢且会卡壳,但零成本、零门槛。Operator 是产品,Open Computer Agent 是技术验证——但验证的东西很重要:开源模型也能撑起完整的 Agent 工作流。

Q:Open Computer Agent 的技术架构是什么?

三部分组成:smolagents(Hugging Face 自家的轻量级 Agent 框架)+ Qwen2-VL-72B(阿里的 720 亿参数视觉语言模型,支持 grounding 即精确定位屏幕元素坐标)+ E2B Desktop(云端虚拟桌面环境)。核心突破在 Qwen2-VL 的 grounding 能力——模型不光能看懂屏幕内容,还能精确定位每个 UI 元素并模拟鼠标点击。

Q:中小企业现在能用 Open Computer Agent 吗?

现阶段不适合生产环境使用。它目前是技术展示品,速度慢、会犯错、解不了验证码。但适合做两件事:一是测试自己的 Agent 创意想法,零成本验证可行性;二是了解 Computer Use 方向的技术进展,为未来 Agent 布局做准备。真正的企业级 Computer Use Agent 需要等这个方向再成熟 6-12 个月。

相关阅读:

→ AI不是单点工具,是流水线——中小企业搭建AI工作流自动化的实战指南
→ 从"一个AI"到"一支AI团队":中小企业多智能体协同落地实操
→ 中小企业上AI,从选对第一个场景开始
← 返回文章列表