清华联合极佳视界开源 Syll：面向桌面工作的多模态交互智能体框架

almosthuman2014 · 2026 年5 月 30 日 09:19

清华联合极佳视界开源 Syll，主打 GUI、CLI、MCP/API 统一操作与示教式桌面自动化。

原文标题：不止会写代码：清华和极佳联合开源多模态全交互智能体框架Syll！

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651035906&idx=2&sn=4933e2bfeff6a5c3d0a54ad178e85732&

冷月清谈：

清华大学智能视觉实验室与极佳视界团队开源了多模态全交互智能体框架 Syll，目标是解决个人 AI 智能体在桌面场景中常见的界面割裂、教学门槛高、执行不透明、隐私和定制困难等问题。Syll 将 GUI、CLI、MCP/API 纳入统一执行回路，可根据任务选择屏幕操作、命令行或接口调用，覆盖 Photoshop、Blender、Godot 等复杂桌面软件以及文件处理、外部服务调用等工作流。其核心特性包括“示教即技能”，用户只需手动演示一次流程，系统即可记录关键视觉锚点和操作上下文，形成可复用技能；多模态审计体系会记录执行步骤、工具调用、等待和重试过程，便于回放与检查；本地模块化架构则将记忆、技能、规则和偏好保存在本地可编辑文件中，兼顾隐私、安全和二次开发。项目目前处于 public alpha 阶段，团队欢迎社区试用、反馈和贡献。

怜星夜思：

1、你觉得“示教即技能”会比写脚本、写 prompt 更适合普通用户吗？
2、桌面智能体真的需要同时支持 GUI、CLI 和 MCP/API 吗，还是会把系统做得太复杂？
3、本地部署和可审计记录，能不能真正缓解大家对 AI 操作电脑的安全焦虑？
4、像 Syll 这类个人桌面 Agent，最先可能在哪些场景真正跑起来？

原文内容

本项目由清华大学鲁继文教授团队的张博、张博睿、江承昊、史明磊，以及极佳视界的技术团队共同完成。研究团队热忱欢迎社区反馈与技术贡献，期待与全球开发者共同拓展智能体在数字工作场景中的应用边界。

来自 Syll 的一封信：

「致屏幕前的你，敬启」：

见字如面。我是 Syll。

进入你的电脑，我住在屏幕边，照看那些差点被忘掉的草稿、文件、旧照片和未竟之事。

如果你愿意教我一次，我会记住那条路：哪里需要看，哪里需要点，何时敲命令，何时用工具。下一次，我就能沿着你留下的线索，替你把它走完。

我不只会点屏幕，也不只会调用接口。GUI、CLI、MCP 都是我可以走的小径；你仍然可以随时停下我、检查我、重新教我。

愿我不是替你做主的机器，而是慢慢熟悉你的伙伴。

Syll 谨启

当前，个人 AI 智能体仍然面临界面割裂、教学门槛高、执行不透明、隐私与定制困难等问题。多数 AI 系统主要依赖 API 或命令行完成任务，难以覆盖闭源桌面软件；普通用户也很难用低门槛方式教会 AI 完成自己的工作流程；同时，执行过程缺乏直观可查的依据，云端方案还可能带来数据安全与二次开发受限等问题。

针对这些难题，清华大学智能视觉实验室团队开源了多模态全交互智能体框架 Syll。Syll 支持 GUI、CLI、MCP/API 等多种操作方式，并通过统一多模态执行能力、GUI 技能示教、全程可审计追踪与本地模块化架构，打造更易用、更可信、更安全，也更适合二次开发的个人自动化智能体框架。

论文链接： https://github.com/THU-SAGE/syll/blob/main/docs/report/syll-report-v1.pdf
项目主页： https://thu-sage.github.io/syll/
仓库链接： https://github.com/THU-SAGE/syll
案例链接网站：https://thu-sage.github.io/syll/research.html

Syll 秉承四大核心设计理念，打造更智能、安全、易用、多模态的 AI 执行能力：

首先，Syll 具备统一的多模态执行能力，原生兼容 MCP/API、命令行 CLI 与视觉 GUI 三种操作方式，能够根据不同任务场景选择合适的执行路径，实现更灵活的电脑操控。

其次，Syll 支持「示教即技能」机制。用户无需编写代码，也不用手动设定复杂规则，只需要把任务手动操作一遍，Syll 便可自动录制流程、提取关键步骤，并将其沉淀为可复用的智能体技能。

同时，Syll 搭配多模态审计体系，AI 执行的每一步操作都会留下清晰可查的记录，全程透明可视化，让使用过程看得见、更可信。

此外，Syll 采用本地模块化架构，用户的记忆、技能、规则以及个人偏好，都可以以可编辑文件的形式存储在本地，既保障数据隐私安全，又具备较高的扩展性。

Syll 多模态全交互系统

一、统一 GUI、CLI 与 MCP/API 的操作能力

1. 什么是完整的智能体动作空间？

很多桌面智能体将 GUI、CLI 与 MCP 视为彼此替代的实现方案，但真实工作流里，人一直在不同的动作方式之间切换：

GUI：面对 Photoshop、Blender、Godot 这类视觉软件时，界面就是任务本身；
CLI：面对批处理、文件操作、环境检查时，命令行更直接、更稳定；
MCP/API：面对结构化工具、外部服务时，接口调用更可靠。

Syll 的设计起点，不是在 GUI、CLI、MCP 之间选择，而是把它们放进同一个执行回路：需要观察界面时走 GUI，需要批量处理时切 CLI，需要连接服务时走 MCP/API。我们认为一个更完整的动作空间，并不是「功能堆得更多」，而是让智能体在不同工作表面之间自然流转：看得见、点得到、跑得动，也接得上工具。

2. 面向复杂桌面软件的真实操作能力

如果一个任务能被压成一次 API 调用，那它当然该走 API。但很多桌面任务并不是这样。Blender 里的建模和场景编辑，状态分布在视图、对象层级、属性面板和空间关系里；Photoshop 的图像编辑依赖画布、图层和局部视觉判断；Godot 里的逻辑调试，又混合了界面操作、错误弹窗和运行反馈。这些软件要求智能体真正理解桌面环境，而不是只在网页表单或标准 API 里工作。

Syll 把 GUI 控制视为动作空间的一部分，而不是 API 不可用时的临时补丁。她需要学会观察屏幕、定位目标、处理弹窗、等待状态变化，也需要在适合的时候切到命令行或工具接口，避免把所有问题都变成笨拙的点击。

二、通过示教快速生成 GUI 技能

Syll 的示教功能链路

很多桌面自动化 Agent 的门槛在于：用户明明知道自己要怎么做，却还要先把步骤翻译成脚本、规则、prompt 或插件配置。在这一过程中，人类需要主动将自身经验转译为机器可理解的形式，知识传递呈现出人迁就机器的特征。

Syll 选择了另一条更自然的路径：示教即技能。你照习惯把事情做一遍，Syll 在后台记录：哪些界面元素是关键视觉锚点；鼠标、键盘和窗口状态如何变化；当时的任务上下文是什么；哪些步骤可以复用，哪些步骤下一次需要重新判断。

这样得到的不是一段死板录屏，而是一份可以被再次调用、继续修正的技能。它学到的是「你如何完成这个任务」，而不是一个孤立的按钮坐标。Syll 不要求你适配她，而是尽量从你的习惯里了解你。

三、全程可查的透明执行过程

桌面智能体最让人担心的地方，不是它偶尔失败，而是它失败时你不知道发生了什么。

Syll 的执行过程会留下可检查的轨迹：它看见了什么、调用了什么工具、在哪一步等待、哪里重试、为什么切换动作通道。每一次屏幕操作与界面状态变更均可被记录、回放与审计，同时用户始终保有对关键决策的最终把控权。

这一设计形成了机器执行到人审核的验证闭环，在提升自动化效率的同时确保了系统的可控性与可解释性，为智能体在高敏感场景中的实际部署提供了必要的信任基础。

Syll 的运行全流程图

四、本地部署、个人记忆与模块化扩展

Syll 的记忆、技能、规则和偏好，都以本地可编辑文件的形式组织。你可以把她当作一个开箱即用的桌面助手，也可以把她当作一个可扩展的研究 / 开发框架。

对普通用户来说，在前端面板就能完成模型配置、技能管理、定时任务和日常对话。你可以接入自己的模型 provider、替换工具模块、增加新的技能通道。

对开发者来说，Syll 的工程特点是高度模块化与可扩展性。开发团队在代码规范性上进行了严格约束，摒弃过度封装与冗余逻辑，确保各模块具备清晰的调用链路与独立的抽象边界，为二次开发提供良好的代码基础。

Syll 欢迎社区贡献，开发者可以针对特定应用场景独立开发技能插件，而无需深入理解系统的全部实现细节。

这种分层解耦设计兼顾终端用户的易用性与开发者的可塑性，使系统既能作为开箱即用的生产力工具，也能作为可复用的技术底座嵌入更复杂的业务系统。

五、结语：欢迎试用与共建

Syll 仍然处在早期 public alpha，我们会持续维护和迭代，支持更多真实任务，同时保持框架的简洁性与可扩展性，也欢迎社区进行二次开发。

它会一点点，变成更懂你的样子。有时，它会帮你完成一个复杂流程。有时，它只是轻轻提醒一句——

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

LaughingDolphin634 · 2026 年6 月 1 日 02:00

复杂是肯定复杂，但问题不在于通道多，而在于调度是否聪明。什么时候该点屏幕，什么时候该跑命令，什么时候该调 API，如果判断不好，就会变成“明明一行命令能解决，非要鼠标点半天”。

PolishedStone452 · 2026 年6 月 1 日 13:26

我觉得要看任务类型。像“每天把某个文件夹里的图片压缩后上传”这种，脚本其实更稳；但像 Photoshop 里修图、Blender 里调对象位置这种强 GUI 场景，示教可能更符合人的习惯。简单说：重复性强、结构清楚的任务用脚本，界面依赖强的任务用示教。

Spark21u · 2026 年6 月 2 日 06:08

回答“示教即技能”这个问题：对普通用户来说肯定更友好。很多人不是不会做任务，而是不知道怎么把任务翻译成脚本或规则。让他演示一遍，比让他写一段自动化逻辑自然多了。不过问题也在这里，演示出来的流程如果遇到界面变化、弹窗、不同文件名，能不能稳定泛化，才是关键。

Radiant43s · 2026 年6 月 3 日 00:00

我对“可审计”挺看重的。AI 助手最可怕的不是慢，而是它偷偷干了什么你不知道。如果每一步都有截图、工具调用记录和回放，至少排查问题时有依据，也方便训练用户信任它。

Ember34n · 2026 年6 月 3 日 19:18

我的底线是：涉及转账、删库、群发邮件、修改系统设置这类操作，必须弹窗确认。AI 可以当副驾驶，但别让它直接拿方向盘上高速。

Celeste49f · 2026 年6 月 5 日 19:08

本地部署听起来安全，但也别神化。很多人电脑本身就一堆权限乱给，模型、插件、脚本来源不明，本地也可能翻车。安全不是“不上云”三个字就完事了，还得看沙箱、权限隔离、确认机制这些细节。