Hugging Face 搞了个免费的"电脑操控员"，开源 Agent 要变天了

5 月 6 日，Hugging Face 放出了一个叫 Open Computer Agent 的东西——免费、开源、云端跑，能像人一样操作电脑。

这不是又一个聊天机器人。它真的会打开 Firefox，帮你查地图、搜维基百科、甚至去 Hugging Face Space 上找图片生成模型给你画张图。听起来像 OpenAI 的 Operator？没错，但 Operator 要花钱，这个不要。

它到底怎么工作的

三个东西拼在一起：

smolagents：Hugging Face 自家的轻量级 Agent 框架。
Qwen2-VL-72B：阿里的视觉语言模型，720 亿参数。
E2B Desktop：云端虚拟桌面环境。

关键在 Qwen2-VL 的"grounding"能力——模型不光能看懂屏幕上有什么，还能精确定位每个元素的坐标，然后模拟鼠标点击。说白了，它看得见、点得着。

Aymeric Roucher（Hugging Face Agent 团队成员）说得很直白："随着视觉模型越来越强，它们能驱动复杂的 Agent 工作流。"

现在能干啥，不能干啥

能干的：简单任务没问题。查个地图、搜个信息、生成张图片，都行。

干不了的：复杂任务还费劲。搜航班这种多步骤操作经常卡壳。遇到验证码直接歇菜——它解不了 CAPTCHA。反应也慢，有时候要等好几秒，偶尔还会卡死。

说白了，现在还是个"技术展示品"，不是"生产力工具"。但展示的东西很重要。

为什么这对开源 Agent 生态是大事

门槛断崖式下降。

以前想搞一个能操控电脑的 AI Agent，你得有 OpenAI Operator 的订阅（每月 200 美元），或者自己搭一套 Computer Use 的环境。现在？打开浏览器，访问 Hugging Face 的页面，输入一句话就行。

这对开发者来说意义重大。你可以在上面测试自己的 Agent 想法，不用先掏钱、不用先配环境。

开源模型在 Agent 场景的能力被验证了。

Qwen2-VL-72B 是开源模型。它干的活——视觉理解 + 精准定位 + 操作执行——以前被认为是 GPT-4V 这种闭源模型的领地。现在开源模型也能撑起完整的 Agent 工作流。

这对整个开源社区是个强心针。意味着 Agent 不一定非得绑在某家大厂的 API 上。

"Computer Use"正在从概念变成基础设施。

a16z 最近发了篇文章，观点很明确：Computer-using Agent 是真正 Agent 的关键驱动力。它们的价值取决于两个因素——能接入多少工具，以及能不能在工具之间推理。Computer Use 同时拓展了这两个维度。

Hugging Face 这次做的事情，是把这条路径的早期形态免费开放给所有人。

马户科技怎么看

我们在做的也是 Agent——只不过不是操控电脑的 Agent，而是做内容、管客户、搞运营的 Agent。但底层逻辑是一样的：

Agent 的核心能力 = 感知环境 × 理解意图 × 执行动作。

Open Computer Agent 把"感知"这一步从文本扩展到了屏幕画面。这跟我们让 Agent "感知"飞书消息、客户数据、平台规则，本质上是同一件事——只是输入源不同。

对我们来说，几个值得关注的信号：

开源 Agent 框架（smolagents）在快速成熟。我们自己的 Agent 架构可以借鉴它的设计思路，尤其是"轻量 + 模块化"的哲学。

视觉模型的 grounding 能力有溢出效应。今天我们做的是文本内容 Agent，但未来如果需要 Agent "看"屏幕截图、"读"图片中的信息，这些能力可以直接拿来用。

免费 + 开源 = 生态爆发的前奏。Hugging Face 上的 Space 已经在排队了。当更多开发者涌入，围绕 Open Computer Agent 的插件、教程、二次开发会像雨后春笋一样冒出来。

市场数据

别觉得这只是技术圈的热闹：

65% 的企业已经在试验 AI Agent（KPMG 调研）。
AI Agent 市场规模预计从 2025 年的 78.4 亿美元增长到 2030 年的 526.2 亿美元（Markets and Markets）。
OpenAI、Google、Anthropic、Manus 等公司都在押注 Computer Use 赛道。

这不是泡沫，是赛道。

一句话总结：Hugging Face 的 Open Computer Agent 不是最好用的 Agent，但它是最容易够到的 Agent。对开源生态来说，"能用"比"好用"更重要——因为"能用"意味着有人会来改、有人会来用、有人会把它变成更好用的东西。

这才是开源的真正力量。

数据来源：TechCrunch（2025.5.6）、iThome（2025.5.7）、a16z "The Rise of Computer Use and Agentic Coworkers"、KPMG AI Agent 企业调研、Markets and Markets AI Agent 市场报告

常见问题

Q：Open Computer Agent 和 OpenAI Operator 有什么区别？

Operator 是 OpenAI 的付费产品（月费200美元），基于闭源模型，体验更流畅。Open Computer Agent 是 Hugging Face 的免费开源产品，基于 Qwen2-VL-72B 开源模型，目前速度较慢且会卡壳，但零成本、零门槛。Operator 是产品，Open Computer Agent 是技术验证——但验证的东西很重要：开源模型也能撑起完整的 Agent 工作流。

Q：Open Computer Agent 的技术架构是什么？

三部分组成：smolagents（Hugging Face 自家的轻量级 Agent 框架）+ Qwen2-VL-72B（阿里的 720 亿参数视觉语言模型，支持 grounding 即精确定位屏幕元素坐标）+ E2B Desktop（云端虚拟桌面环境）。核心突破在 Qwen2-VL 的 grounding 能力——模型不光能看懂屏幕内容，还能精确定位每个 UI 元素并模拟鼠标点击。

Q：中小企业现在能用 Open Computer Agent 吗？

现阶段不适合生产环境使用。它目前是技术展示品，速度慢、会犯错、解不了验证码。但适合做两件事：一是测试自己的 Agent 创意想法，零成本验证可行性；二是了解 Computer Use 方向的技术进展，为未来 Agent 布局做准备。真正的企业级 Computer Use Agent 需要等这个方向再成熟 6-12 个月。