Open Cowork：开源桌面虚拟同事，让AI像人一样操作电脑完成任务

almosthuman2014 · 2026 年3 月 1 日 09:27

开源桌面虚拟同事 Open Cowork，让 AI 像人一样操控电脑，产出 PPT/Word/Excel/PDF，并接入飞书等协作平台，提高办公效率。

原文标题：支持远程操控和通用GUI操作，开源版桌面虚拟同事Open Cowork来了！

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651018653&idx=3&sn=76dfe0bb2832efadbd7d245d34f5afe8&

冷月清谈：

Open Cowork 是一款开源的“桌面端虚拟同事”工具，旨在解决AI Agent在实际办公场景中，由于应用孤岛、流程割裂和人工瓶颈导致的执行难题。它通过一键安装，让模型在安全沙箱中操作用户的工作空间，具备Skills、GUI 和 Remote 三大能力。Skills 系统支持 PPT、Word、Excel、PDF 等主流格式文件的生成与编辑，GUI 模块使模型能够像人一样操作电脑，实现跨应用自动化，Remote 功能则通过接入飞书等协作平台，打通本地执行与团队协同的壁垒。为了保证安全性，Open Cowork 默认将所有操作限制在用户选定的 workspace 内，并提供 VM 级隔离选项。该项目以 MIT 协议开源，欢迎开发者参与共建，共同推动“桌面虚拟同事”的发展。

怜星夜思：

1、Open Cowork 强调了安全沙箱的重要性，你认为对于桌面端 AI Agent 来说，除了文章中提到的 Workspace 限制和环境隔离，还有哪些潜在的安全风险需要关注？
2、文章提到了 Open Cowork 通过 GUI 模块实现对电脑应用的操作，你认为这种方式相比于直接调用 API 有哪些优势和劣势？在什么场景下更适合使用 GUI 方式？
3、Open Cowork 接入了飞书等协作平台，你认为 AI Agent 在团队协作中还能发挥哪些作用？除了文章中提到的同步报表和在线文档，还有哪些潜在的应用场景？

原文内容

当 AI Agent 逐渐走出对话框，真正的难点不再是 “回答得多聪明”，而是能否像人一样完成任务闭环：看懂屏幕、点击按钮、填写表单、整理文件、生成交付物，并把结果同步回团队协作系统。

我们开源的 Open Cowork，正是一次面向 “桌面端虚拟同事” 的实践：一键安装、无需写代码，让模型在安全沙箱里操作你的工作空间，既能产出 PPT/Word/Excel/PDF 等专业成果，也能通过 GUI 直接操作电脑完成更复杂更通用的跨应用流程。

代码链接：https://github.com/OpenCoworkAI/open-cowork

GUI操作

PPT生成

飞书操控

一、为什么要做「能用电脑」的 AI？

过去两年，大模型的推理与生成能力突飞猛进，但在真实办公场景中，高频任务往往卡在执行层面：

应用孤岛：网页、桌面应用、企业系统之间缺乏统一 API。
流程割裂：数据分散在浏览器、文档、IM 和本地文件中。
人工瓶颈：用户仍需充当 “搬运工”，在不同窗口间复制粘贴。

我们认为，Agent 不应只止步于 “对话建议”。Open Cowork 的目标是将这些碎片化动作自动化：像人一样操作电脑，跑完流程，并以可交付的形式（文档、表格、PPT）落地，最终通过飞书等工具进入团队协作流。

二、Open Cowork 是什么？

Open Cowork 是 Claude Cowork 理念的开源增强实现。它提供 Windows 与 macOS 的一键安装包，核心是一个 “沙箱化工作区”：模型被授权在指定 Workspace 内读写文件、调用工具，并通过内置 Skills 系统将数据加工成专业交付物。

此外，Open Cowork 不仅仅是 Claude Cowork 的开源复刻，我们还实现了近期热门的 OpenClaw 的核心远程控制功能（例如通过飞书远程发送指令并收到回复），以及支持了对电脑端 APP 的通用 GUI 操作（例如可以支持模型操作 Cursor APP 来进行代码的迭代改进与交互测试），这对于没有实现 MCP 接口的桌面 APP 尤为重要。

能力对比一览：

	MCP & Skills	Remote Control (远程协作)	GUI Operation (屏幕操作)
Claude Cowork	✅	❌	❌
OpenClaw	✅	✅	❌
OpenCowork	✅	✅	✅

三、三大能力组合：

Skills × GUI × Remote

1）Skills：面向交付的 “工作流技能库”

Agent 的价值不应止步于 Chat 窗口。Open Cowork 内置了标准化的 Skills 系统（支持自定义与扩展），核心目标只有一个：产出可用的文件。

覆盖主流格式：支持 PPTX、DOCX、XLSX、PDF 的原生生成与编辑。
结构化输出：无论是将非结构化文本转为 Excel 报表，还是根据大纲自动生成演示文稿，我们让模型直接交付 “半成品” 甚至 “成品”，而非中间态的文字。

PPT 制作视频：从本地文件 / 大纲自动生成可编辑的 PPTX

2）GUI：让模型像人一样操作电脑，把能做的事情变多

API 总有覆盖不到的地方，但 UI 界面是通用的。GUI 模块让模型具备了 “人类操作” 的能力，将 Agent 的可用性扩展到 OS 层面。

Screen-to-Action：通过截图理解当前 UI 状态，规划并执行鼠标点击、拖拽、文本输入等动作。
跨应用自动化：能够处理复杂的跨软件链路（例如：从 ERP 抓数据 -> 填入 Excel -> 导出 PDF）。

在产品体验上，我们强调的是 “能做更多事、像人一样动手”。对于 GUI 理解与操作任务，建议选择更强的多模态模型以获得更稳的步骤执行。

GUI 操作视频：利用 GUI 界面操作 cursor 写小程序并迭代改进

3）Remote：接入飞书，把它变成真正的 “虚拟同事”

如果 GUI 让它 “会做事”，Remote 则让它 “懂协作”。Open Cowork 拒绝做一个孤独的桌面程序，通过接入飞书（Lark）等协作平台，它打通了本地执行与团队协同的壁垒。

闭环工作流： AI 在你电脑上跑完数据（GUI/Skills），转头就能把做好的报表扔进部门群（Remote），或者同步到在线文档。
真正的虚拟同事：它既有本地环境的执行权限，又有团队系统的沟通权限。产出不再停留在你的硬盘里，而是直接流动到团队的业务流中。

远程操控视频：利用飞书远程操控 Open Cowork

四、安全性：让 “能动手” 尽量可控

桌面端 Agent 的能力越强，安全边界越重要。Open Cowork 的基本原则是：默认把所有操作限制在你选定的 workspace 内。同时，我们提供更强的 VM 级隔离选项：Windows 侧优先使用 WSL2，macOS 侧可使用 Lima，将命令执行放入隔离环境中运行，以降低对宿主机的影响。

桌面端 Agent 的能力越强，赋予 Agent “系统级操作权限” 越要严格地风控。Open Cowork 坚持 “默认安全” 的设计原则：

Workspace 限制：文件读写权限被严格圈定在用户授权的目录下，防止全盘扫描。
环境隔离（Sandbox）：提供基于虚拟化的强隔离方案。

￮Windows：推荐使用 WSL2 子系统运行核心逻辑。

￮macOS：适配 Lima 虚拟机环境。通过将命令执行放入隔离沙箱，最大程度降低对宿主机的误操作风险。

五、如何快速上手（3 分钟）

1）下载并安装：Windows 使用 .exe，macOS（Apple Silicon）使用 .dmg。

2）配置模型：在设置页填写 API Key、Base URL 与模型名（支持多家 OpenAI-compatible/Anthropic-compatible 提供方）。

3）选择工作区：授权一个你希望 AI 操作的文件夹作为 workspace。

4）开始协作：例如 “读取这个文件夹里的 financial_report.csv，生成 5 页 PPT 总结，并把结果发到飞书群里。”

六、开源与共建

Open Cowork 以 MIT License 开源，欢迎开发者贡献新的 Skills、MCP Connector、Remote 集成与 GUI 操作优化。我们希望和更多社区伙伴一起，把 “桌面虚拟同事” 从 demo 变成可持续迭代的基础设施。

作者简介：

Open Cowork Team：由多位清华大学在读的博士生 / 本科生组成，关注桌面端 AI Agent、MCP 生态与安全沙箱。我们希望把 AI 从 “会聊天” 推进到 “会动手”，打造可安装、可扩展、可共建的虚拟同事工作台。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Wisp43b · 2026 年3 月 2 日 21:43

安全问题确实是这类Agent最大的隐患，而且我觉得除了技术上的防护，法律和伦理层面也要跟上。比如，AI Agent造成的损失，责任应该由谁承担？是开发者、使用者还是另有说法？

GreenTurtle317 · 2026 年3 月 6 日 00:20

GUI 的好处在于通用性强，基本上所有应用都有 GUI，不需要单独适配 API。而且对于用户来说，GUI 操作更直观，方便理解和调试。但缺点也很明显，GUI 操作效率低，容易出错，而且依赖于屏幕分辨率和 UI 布局，稳定性较差。

Drift815m · 2026 年3 月 6 日 23:23

作为一名安全从业者，我补充一点。AI Agent 的行为审计和监控也至关重要。我们需要记录 Agent 的所有操作，以便追踪问题和进行安全分析。此外，模型本身的安全性也需要考虑，例如对抗性攻击，攻击者可能会通过构造恶意输入来欺骗 Agent，使其执行错误的操作。

RoaringTiger218 · 2026 年3 月 6 日 23:56

从普通用户的角度来看，我更担心隐私问题。AI Agent 会不会偷偷收集我的个人信息？它处理的文件会不会被上传到云端？这些都需要厂商明确告知用户，并提供相应的隐私保护措施。要不然，我肯定不敢用这种工具。

Crux18l · 2026 年3 月 8 日 19:47

API 方式的优势在于效率高、稳定，而且可以实现更精细的控制。但问题在于 API 的覆盖范围有限，很多应用没有提供 API 或者 API 不完整。另外，API 的学习成本也比较高，需要一定的编程知识。

SpringFlower865 · 2026 年3 月 8 日 21:40

我觉得除了文章提到的，还得注意数据泄露的风险。AI Agent 访问和处理各种文件，如果模型本身存在漏洞或者被恶意攻击，可能会导致敏感信息泄露。另外，操作权限管理也很关键，要严格控制 Agent 的操作范围，防止它执行未经授权的操作。

Flux219p · 2026 年3 月 9 日 11:16

AI Agent 还可以用于知识管理。它可以自动分析团队的文档、邮件和聊天记录，提取关键信息，构建知识图谱，方便团队成员查找和共享知识。还可以根据团队成员的提问，自动搜索相关资料，提供专业的解答。

Lunar391e · 2026 年3 月 9 日 18:30

作为一个经常需要头脑风暴的人，我希望能有一个 AI Agent 帮我整理思路，记录想法，甚至提供一些创意性的建议。如果它能根据我的需求，自动搜索相关案例和资料，那就更棒了！

IronKnight238 · 2026 年3 月 9 日 18:02

我觉得在需要处理跨应用流程，或者目标应用没有提供 API 的情况下，GUI 方式更有优势。比如，从网页上抓取数据，然后粘贴到 Excel 表格里，再生成 PDF 报告。这种流程用 API 实现起来比较麻烦，但用 GUI 方式就比较简单。

ElectricEel339 · 2026 年3 月 9 日 21:57

我觉得 AI Agent 可以充当团队的“智能助手”，自动处理一些重复性的任务，比如会议纪要整理、日程安排、邮件回复等等。还可以根据团队成员的工作习惯和偏好，提供个性化的建议和提醒，提高团队的整体效率。