Agivar 用“录屏教学”降低桌面 Agent 上手门槛：让 AI 学会真实工作流

almosthuman2014 · 2026 年6 月 16 日 11:33

Agivar 通过录屏教学让 AI 学习桌面工作流，试图降低 Agent 落地门槛。

原文标题：年薪300万的前沿部署工程师，要被「录屏教学」替代了

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651039317&idx=1&sn=ff1030e264f225d00961bdf7989761ee&

冷月清谈：

文章介绍了非十科技发布的桌面 Agent 产品 Agivar，其核心思路不是让用户写复杂 Prompt，而是通过“录屏教学”让 AI 观察并学习用户的实际操作流程。文章指出，当前许多企业内部系统、政务系统、ERP、CRM 等缺少 API，只能依赖人工重复点击，传统 Agent 又常因提示词门槛高、执行慢、稳定性不足而难以落地。Agivar 通过“大脑+小脑”架构，将大模型用于理解流程、规划任务和处理异常，将专用小模型用于界面识别、点击输入等高频动作，以提升速度和确定性。文中还提到其通过训练收敛、多重校验和规则约束来减少大模型执行中的随机性。团队背景方面，非十科技核心成员来自清华计算机系，并参与 Jittor 深度学习框架开发。文章整体强调，录屏式交互可能让普通用户更容易把日常重复工作交给 AI。

怜星夜思：

1、如果桌面 Agent 真能靠录屏学会流程，你最想把哪类工作交给它？
2、录屏教学听起来很方便，但你会担心它看到太多隐私或公司敏感信息吗？
3、企业真正愿意用桌面 Agent，最关键是速度、准确率，还是可审计性？
4、“录屏教学”会不会只是新瓶装旧酒，和按键精灵、RPA 到底差在哪？

原文内容

机器之心发布

AI 正在学着操作电脑。

过去 AI 回答问题，现在它直接开始帮你干活。填表格、录系统、整理文件，Anthropic 的 Claude Cowork、OpenAI 的 Codex 桌面版 —— 越来越多的 Agent 开始接管真实工作流。

但当整个行业疯狂冲向桌面时，有一个问题被忽略了：AI 越来越会干活了，但普通人该怎么把自己的工作流程交给它？

目前主流 Agent 的逻辑是 “你写 Prompt → AI 执行”，听起来合理，现实中却屡屡碰壁。

打开内部系统、填表单、传附件、点提交…… 这些动作早已是员工的 “肌肉记忆”，可要用文字描述清楚，大多数人直接卡住。更别说跨系统跳转、条件分支，很多人连 Prompt 从哪儿写起都不知道。

如果人说不清流程，AI 还能学会吗？

有意思的是，为了解决这个难题，硅谷催出生了一个新职业 ——FDE（Forward Deployment Engineer，前沿部署工程师）。

他们驻场在客户公司，工作就是把业务人员 “说不清” 的流程，翻译成 AI 能执行的任务。他们既要懂技术，又要熟悉真实的工作流。如今资深 FDE 的年薪中位数已高达 48.5 万美元。

FDE 的存在说明了一件事：让人学会教 AI，其实没有那么容易。

那如果能让 AI 自己学会理解业务流程，而不是靠年薪数十万美元的工程师来翻译，会怎样？

有人给出了答案。

不会写 Prompt？那就演示给 AI 看

由清华大学计算机系博士团队创立的非十科技，最近发布了一款桌面 Agent 产品 ———Agivar。

与多数产品试图优化 Prompt 不同，它选择从另一个方向切入：让 AI 主动学习用户的工作流程。

你可以把它理解成一个会操作电脑的 “AI 员工”。

Agivar 的核心能力叫做 “录屏教学”，使用方式非常简单：打开电脑录屏，像平时工作一样把流程操作一遍。录制结束后，剩下的事情交给 AI。

听上去有点像早年的 “按键精灵”？但两者其实完全不同。

按键精灵记录的是坐标和动作 —— 鼠标移动到 (300,500) 点击，机械重复；Agivar 学习的是任务和逻辑 —— 它观察你工作的每一步，然后理解：为什么先打开这个页面？为什么填这个数字？什么情况下跳过这一步？

Agivar 学到的不是 “下一步点哪里”，而是你的工作方法。它理解的是流程背后的规则与判断逻辑，而不是单纯复现点击轨迹。即便界面改版、按钮移位，它依然能识别正确目标并执行。

你教会它一次，它就能把这套流程稳定、可追溯地执行下去。

录屏三分钟，换回每天两小时

广东省某政务部门的工作人员，每天都要在内部系统处理大量表单。打开系统→选择业务类型→填写信息→上传附件→提交审批，每天同样的流程都要重复十几次。仅这一项工作，日常就要花掉一、两个小时。

这些系统没有 API、没有自动化接口，只能靠人工点击。于是他尝试使用 Agivar。录制了一次完整流程，不到三分钟，此后这套流程便实现了自动执行，不用再盯着屏幕逐步操作。

录屏三分钟，换回每天两小时。

这样的场景远非个例。政务系统、企业 ERP、CRM、财务软件、内部 OA、采购系统…… 大量重复、无 API、只能手工操作的流程，正是成千上万普通员工的日常。真正消耗时间的从来不是复杂工作，而是那些让人麻木的重复。

别的 Agent 还在思考，Agivar 已经做完了

如果你试用过一些桌面 Agent，可能会有一个直观感受：能干，但慢。

原因并不复杂。因为大多数产品是直接调用通用多模态大模型 “硬解” 桌面任务：截图→上传云端→推理→返回→执行，再截图→再推理……

对于桌面任务来说，这意味着大量与任务无关的能力也被带进了执行过程，每次点击都伴随五秒以上延迟。整个过程像一个刚学会电脑的新人。

而 Agivar 选择了另一条路线。

团队针对桌面任务场景训练了专用的执行模型，强化了桌面操作的能力。在此基础上，设计了 “大脑 + 小脑” 双层架构：

大模型（大脑）：理解录屏内容、拆解任务目标、规划执行路径、处理异常。
专用小模型（小脑）：界面识别、鼠标点击、键盘输入、高频动作执行。

这与人类神经系统非常相似。当你开车时，不会每踩一次油门都重新思考交通规则。大脑负责路线规划，小脑负责具体动作。

支撑这套架构的，是团队基于清华大学自研深度学习框架 Jittor（计图）开发的推理引擎，针对高吞吐、低延迟场景的桌面任务场景，团队对模型调度和执行链路进行了专门优化，确保大小模型协同不等待。

速度差距直接体现在数据上：

同一台电脑执行同一个后台信息录入的任务，某主流产品耗时 2 分 12 秒，Agivar 仅 57 秒，速度提升一倍以上。

单个任务差一分钟，差距或许不明显。但当任务变成 100 份报销单、300 条客户信息，或者一天的批量审批时，分钟级差距很快被放大成小时级成本。

比速度更难的，是确定性

速度固然重要，但企业是否能让 Agent 走进生产环境，关注的不是快，而是稳。

大模型是概率系统。第一次点 A，第二次可能点 B，第三次换个按钮 —— 这在写诗时是创意，在财务录入、合同归档里却是风险。

AI 能否进入生产环境，拼的从来不是上限，而是下限。

为了解决确定性，Agivar 做了三层设计：

训练收敛。用海量桌面任务数据，强化 “界面状态→用户意图→执行动作” 之间的稳定映射，减少 “发散”。
多重校验。内部多个 Agent 交叉验证 —— 规划、执行、观察、复核，不同角色各司其职，每一步都有人问：“点对了吗？界面还在预期状态吗？”
规则约束。高频流程的关键操作节点、绝对不能出错的动作，直接写成程序控制的 “铁律”。执行核心步骤时，系统会优先遵循预设路径，不随意发挥。

最终目标只有一个：同一任务重复执行，走同样路径，得到同样结果。

毕竟，对于企业来说，生产环境不需要惊喜，只需要稳定。

全栈自研，清华团队的硬核底牌

Agivar 的模型训练到执行框架，全部由非十科技自研完成。团队的核心成员来自清华大学计算机系，同时也是清华自研的深度学习框架 Jittor（计图）的主要开发者。

Jittor 以其易用性和效率优势，早已成为国内主流深度学习框架之一，这意味着 Agivar 对底层推理调度的优化，并非建立在第三方能力之上，而是具备从框架层到模型层的完整掌控能力。

Agivar 并非团队的第一个 “爆款”，此前团队推出的 AI 编程助手 Fitten Code，累计下载量超过 150 万，在多个主流插件平台评分第一。

同时拥有大模型自研能力、深度学习框架研发能力以及百万级产品落地经验，这样的组合，在国内外同类赛道中并不多见。

让每个人都拥有自己的 “AI FDE”

过去两年，AI 行业追逐的是更大、更强的模型。但时间走到今天，一个更现实的问题浮出水面：

AI 到底能不能真正进入普通人的工作流？

FDE 模式曾是答案，但高昂的成本让大多数人望而却步。

今天，Agivar 选择了一条更朴素、也更普惠的路径：把 “翻译” 和 “定义工作流” 的能力，交还给用户自己。不用痛苦地学 Prompt，不必改变习惯。一次录屏演示，就能训练属于自己的桌面 Agent。

目前，Agivar 已开启公测，支持 Windows 与 macOS。录一遍，让 AI 替你干活。

下载地址请访问：https://agivar.fittentech.com

从某种意义上说，“录屏教学” 真正改变的并不是交互方式，而是人与 AI 之间的协作关系。

它让桌面 Agent 第一次有机会摆脱复杂配置和专业门槛，真正进入普通人的工作流。如果说过去的软件是在要求人适应系统，那么下一代的 Agent 正在反过来适应人。

而当每个人都拥有一个能够理解自己工作流程的 “AI FDE” 时，这场关于效率的变革，或许才刚刚开始。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Comet761k · 2026 年6 月 20 日 02:37

这问题问得好。按键精灵：我点哪你点哪。录屏 Agent：我为什么点这儿你也得懂。前者像跟班，后者像刚入职但会偷看你操作的同事。