超越数字边界:主动式智能Agent如何重塑现实生活体验

AI Agent 的终极形态是主动式智能。Looki PIE 试图将 Agent 从数字世界带入现实,实现对用户个人上下文的理解和应用。

原文标题:龙虾之后,为什么说「主动式智能」才是Agent的终极形态?

原文作者:数据派THU

冷月清谈:

本文探讨了 AI Agent 从 Reactive(被动响应)到 Proactive(主动智能)的演进,指出当前数字 Agent 的局限在于无法感知现实世界的上下文信息。文章重点介绍了 Looki PIE 这款可穿戴设备,它通过将自动驾驶的工程范式应用于日常生活,实现了对现实世界视听信息的采集、理解和应用,从而使 Agent 能够主动为用户提供个性化的提醒和服务。文章还深入分析了主动判断的技术切面,强调了时机选择的重要性,并探讨了在现实世界构建 Agent Harness 所面临的挑战,包括感知模块的激活、上下文索引的构建以及隐私保护等问题。最后,文章展望了未来 AI Agent 的发展方向,认为当 AI 能够真正理解用户的个人上下文时,将能够更好地服务于用户的生活。

怜星夜思:

1、文章提到 Looki PIE 的核心难度在于时机精度,那么在实际应用中,你认为 AI 如何才能更好地判断“什么时候该开口”?除了文章中提到的多因子时机决策,还有哪些可以优化的方向?
2、文章中提到了隐私问题,Looki 采用了端侧过滤和手动上传的双重门控。你认为这种方式足够保护用户的隐私吗?在可穿戴设备收集个人数据的背景下,我们应该如何平衡 AI 的智能化和用户的隐私保护?
3、文章提到 Looki PIE 将自动驾驶的工程范式应用于日常生活。你认为除了自动驾驶,还有哪些领域的技术或理念可以借鉴到 AI Agent 的发展中?

原文内容

图片
来源:机器之心
本文约3000字,建议阅读5分钟
Agent主动帮你干活,主动帮你留心。


一、当 AI 的进化被止于屏幕

OpenClaw 的爆火,不只是因为它能替你干活。

如果仅仅是自动化,市面上的 RPA 工具早就能做到。OpenClaw 真正让人兴奋的,是它展现出的主动性:基于对邮件、日程、聊天记录的持续理解,主动帮你处理事务、主动推送你可能需要的信息。从 Reactive 到 Proactive 的跨越,让整个行业第一次感受到:AI Agent 不只能「被使唤」,更能「替你想」。

但这种主动性有一个边界,它止步于屏幕。

OpenClaw 的感知器是截屏和文件系统,记忆是聊天记录和邮件归档。合上电脑走进真实生活,上下文链路就此中断。会议室里一小时的讨论、通勤路上偶然看到的书、午餐时的闲聊,对所有数字 Agent 都是感知盲区。

这不是 OpenClaw 的缺陷,而是所有数字 Agent 的结构性边界。当视线从屏幕转向现实,上下文的介质就从文本流变成了视听流,这不是数据量的叠加,而是维度的跨越。

当现实世界本身成为 AI 的上下文,Agent 才有机会从数字世界的「主动帮你干活」,进化为现实生活里的「主动替你留心」,这就是 Proactive AI 从线上走向线下的起点。

冲着这个命题而来的,是 Looki 最新上线的 Proactive Intelligence Engine (Looki PIE)。

这家由 CMU 校友创办的硬件初创公司,正在将自动驾驶「从感知到决策」的工程范式,迁移到一款 30g 的可穿戴设备上,试图在现实世界中构建真正的主动智能。

二、从「被动记录」到「主动判断」

判断一个 Agent 是否真正理解你的生活,最简单的方法是看它敢不敢主动开口。

Looki L1 去年 8 月海外发售后引发了不小的关注,并在 12 月上线国内版本。在用户社区里,它被称为「人生回看器」,通过全天候的视听记录,为用户梳理生活碎片、提供回溯与洞察。

但早期的交互模式仍是 Reactive 的:你问它「今天吃了什么」,它从视听数据中提取答案;你让它整理会议内容,它忠实执行。触发点始终在用户手里。

向国内用户正式上线的最新版本,标志着这款产品的关键跨越。

Looki 从固定间隔采集升级为 AI 自主判断「此刻是否需要记录、是否需要给出反馈」的动态决策模式,它被团队定义为「场景自适应式智能」(Scene-Adaptive Intelligence)。

这种「主动」是什么体感?让我来分享一次真实的出差经历。

佩戴 Looki 前往首都机场。过完安检,第一条推送到了,它不是航班提醒,而是 Looki 识别到我进入候机区后,主动提醒:「你答应了给家里小宝贝们带礼物,在机场挑点航天模型或者熊猫周边吧。」它记住的不是日程条目,而是我几天前某次对话中随口提的一句话。

走进包子铺还没坐稳,第二条来了:「这 '返京第一口' 选得有老北京情怀!建议再配一碗小米粥或者炒肝,记得去调料区弄碟醋加点油辣椒,那才地道。」

它识别出了餐厅,还基于我的饮食偏好给出了搭配建议,这条推送的信息密度和个人化程度,已经超出了我对一个可穿戴设备的预期。

回到候机区,第三波推送到达:一份基于我此前设定的「AI 行业动态」偏好生成的当日新闻摘要:算力涨价、新融资,每条附有我关注的行业关联分析;紧跟着是三条 T3 航站楼的冷知识,最后一条居然是关于天窗采光设计的,因为它记得我偏好「明亮日照办公环境」。

一个小时,三个场景节点,四次主动判断。每一次都融合了即时感知和历史记忆,没有一条需要我主动发起。坦白说,有几条推送的时机之精准让我有点意外:它确实在学习「什么时候该开口」。

这条体验链背后的技术链路与 OpenClaw 截然不同。OpenClaw 从文本指令出发,经工具调用到结果反馈,在数字世界闭环。

Looki PIE 的起点是未经编辑的现实视听片段,系统先「看懂」场景,再从全天行为时序中检索记忆,判断「此刻是否值得介入」,最终生成一条融合即时感知与历史上下文的推送。

从 Reactive 到 Proactive,关键不在模型更大,而在让现实世界成为持续供给的个人上下文。

三、主动判断的两个技术切面

在出差场景的「即时提醒」之外,翻到 APP 的另一个页面「探索」,会发现一个更有想象力的功能入口:用户可以用自然语言,自己定义 Agent 在什么条件下该做什么。

它本质上是一段为现实世界编写「If...Then...」的提示词。

我试着设了几条:「每天一杯咖啡,多了提醒我克制」「到了餐厅帮我推荐菜」「开会时有任何洞察及时告诉我」「每天早上到公司,把我关心的信息发给我」。设定过程极简,自然语言输入即可。

这些规则的触发逻辑和手机定时提醒完全不同。手机闹钟只能按时间或坐标响,而Looki 的触发条件却是场景语义:摄像头捕捉到你面前第二杯咖啡才触发健康提醒,识别出你走进餐厅在看菜单才推送推荐。

背后是一条完整管线:从自然语言的意图解析、视觉特征提取,到实时场景匹配和多维上下文验证。这套具身智能 Pipeline 通常存在于机器人实验室,如今被压进 30g 的日常设备。

不过,比「看懂场景」更难的是「决定什么时候开口」。

回看出差那四次推送:安检后提醒买礼物:「进入商业区 + 有空闲 + 记得承诺 "同时满足;进餐厅推荐 ——「正在做就餐决策 + 了解口味」;候机推新闻:「有碎片时间 + 偏好匹配」。每一次都是多因子时机决策,而非规则匹配。

我体验下来最深的感受是:Proactive AI 的核心难度不在推送的内容质量,而在时机精度。 

同一条信息,忙时弹出是骚扰,闲时送达是贴心。对比来看,OpenClaw 的场景相对简单:它只在用户明确指令时行动,不需要在物理环境中判断介入时机。但 Looki PIE 的挑战更体现在物理世界的纷扰中,判断和选择时机比信息世界更困难。

这个分寸,就是 Proactive AI 最核心的技术挑战。

四、为现实世界搭建一套全新的 Agent Harness

Looki PIE 是产品概念,落到工程层面是系统问题。

OpenClaw 的 Harness 为数字世界设计:所有输入是文本态,所有操作在数字环境中。当 Agent 走出屏幕,面对混沌的视听流和非确定性的现实场景,Harness 每一层都得重建。

在 Looki 的两位创始人看来,自动驾驶本质上就是在为现实世界搭 Harness Engineering。从实时采集多模态数据、极低延迟完成场景理解,到做出决策并承担后果。现在他们把同一套工程范式从道路平移到了日常生活。

首先是「看」的问题。 

30g 设备、12 小时续航,感知模块不可能常开。Looki PIE 突破在于端侧部署了轻量化决策模型,根据环境光流和声音波形实时判断「此刻是否值得激活」。通勤时低频运转,会议或聚餐时自动加密采集。不是无差别地盯着你,而是学会什么时候该「睁眼」。

看到」之后是「记住」。

Looki 面对的是一整天的视频流和音频流,一帧画面的 token 消耗可能抵得上一封完整邮件,全量灌入模型既不经济也会放大幻觉风险。据 CTO 刘博聪介绍,Looki 在云端构建了多层级上下文索引体系,按语义需求精准摘取最相关片段。出差场景中「你答应给孩子带礼物」那条推送,靠的就是这套索引从数天前一段对话中打捞出一个承诺,在「用户正在机场候机」的实时场景中将它激活。

最顶层是「决定说不说」。 

感知和记忆提供了原料,但 Looki PIE 最终能否成立,取决于决策层在没有明确指令时自主判断此刻是否该行动。数字 Harness 不太需要纠结这个:行动由用户指令确定性触发。现实 Harness 必须多出这层主动决策能力,且容错空间极小。

还有一件事绕不开:隐私。

Looki 采用端侧过滤加 App 手动上传的双重门控,原始视听数据不无差别上云。而动态感知机制在架构层面做了一件巧妙的事,设备不是时刻在录,而是由 AI 判断「此刻是否需要激活」,同一套决策逻辑同时服务于能力和隐私。

当感知范围延伸到整个生活现场,隐私保障的质量直接决定产品生死。

五、从「个人上下文」到「数字直觉」

回到开篇。OpenClaw 让行业看到了 Proactive AI 在数字世界的面貌,但只活在屏幕里的 Agent 覆盖的终究是生活的一半。

Looki PIE 试图覆盖另一半。它证明了:现实世界的上下文,那些连续的视听流、散落的行为轨迹、非结构化的生活碎片,可以被工程化地采集、结构化地记忆、智能化地调用,并以此支撑 Agent 做出主动判断。

这条路还很长。执行力边界、感知精度、隐私框架,都有大量未解命题。但方向清晰:当你的生活轨迹、所见所闻、与家人的对话沉淀为属于你的「个人上下文」,AI 就不再需要你手动描述世界:它自己看到了、记住了、理解了,然后在你需要的时候,先你一步。

各路「龙虾们」还在为数字世界的「断片」焦头烂额,而窗外的现实世界,作为上下文的新疆域,才刚刚被纳入 AI 的视野。当 Agent 终于走出对话框,开始真正 「看见」这片广袤的现实,我们与 AI 的关系,或许才刚刚开始。

编辑:文婧



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


这个问题问到了Proactive AI的核心痛点!我觉得“精准”的关键在于对用户意图的准确理解。比如,在机场安检后提醒买礼物很贴心,因为这符合“有空闲时间+进入购物场景+有未完成事项”的条件。但如果我在赶飞机的时候收到这种提醒,那就是打扰了。

以下是一些我觉得贴心的场景:
* 会议时: 自动记录要点,并根据我的知识盲区进行术语解释。
* 学习时: 发现我卡住的知识点,并推荐相关的学习资料。

以下是一些我觉得被打扰的场景:
* 专注工作时: 任何无关紧要的推送都是打断。
* 休息放松时: 过度推送信息会让我感到焦虑。

我觉得这个可能性是存在的。解决办法可能在于用户可以自定义信息的来源和范围,比如说,可以指定一些自己平常不怎么关注的领域,让AI有意识地推送这方面的内容。或者干脆加入一个“随机推荐”模式,让AI完全抛开你的偏好,给你一些意想不到的东西。

我觉得光靠厂商的自觉是不够的,用户自身也要提高隐私保护意识。比如说,仔细阅读用户协议,谨慎授权权限,定期清理数据等等。

而且,技术上也可以有更多的创新,比如使用差分隐私、联邦学习等技术,在保护用户隐私的前提下,实现数据的价值。

信息茧房的问题,说白了就是算法的“迎合”心理。要解决这个问题,可能需要引入一些“反向推荐”机制,比如推荐一些与你固有观念相悖的观点,或者是一些你从未涉足过的领域。当然,这个度要把握好,不然可能会适得其反,引起用户反感。

我觉得这个“分寸感”超级重要!想象一下,开会的时候突然跳出来跟你说“你这个想法不对”,那场面得多尴尬!

贴心的场景:
* 做菜的时候: 提醒我某个食材快过期了,或者推荐一个相关的菜谱。
* 旅行的时候: 根据我的位置和时间,推荐附近的景点和美食。

会觉得被打扰的场景:
* 跟朋友聊天的时候: 突然冒出来纠正我的语法错误。
* 晚上睡觉前: 推送各种促销信息。

我比较悲观,感觉在AI面前,个人隐私已经成了“皇帝的新装”。与其担心隐私泄露,不如换个角度思考:如何利用好自身的数据,让AI更好地为自己服务。当然,前提是数据的使用必须是透明的、可控的。

我个人觉得,最好的Agent是“润物细无声”的。它应该像一个贴心的管家,在你需要的时候及时出现,但平时最好不要存在感太强。

比如,在健身的时候,它可以根据我的运动数据,智能调整训练计划,这就很棒。如果在看电影的时候,它不停地分析剧情、叨叨个没完,那就太烦人了!关键是要尊重用户的自主性,让用户掌握控制权。

隐私问题是悬在Proactive AI头上的达摩克利斯之剑。端侧过滤和手动上传只是第一步,更重要的是建立一套透明、可信赖的数据使用规范。用户应该有权知道自己的数据被如何使用,并可以随时撤销授权。此外,监管部门也应该加强对AI公司的监管,防止数据滥用。

这个问题问得好!确实,如果AI只是根据已有的偏好推荐信息,可能会加剧信息茧房效应。关键在于算法如何平衡个性化推荐和探索新领域。也许可以加入一些随机性,或者鼓励用户尝试不同的兴趣标签,引导他们走出舒适区。

在工业生产领域也可以有所作为。可以利用 Proactive AI 技术,实时监测生产设备的运行状态,预测设备的故障风险,并提前进行维护,避免生产事故的发生。或者,可以利用智能摄像头,实时监控生产过程中的安全隐患,一旦发现违规操作,立即发出警报。这可以提高生产效率,降低安全风险。

抖个机灵,干脆让用户自己训练 Agent!让用户自己标注哪些时段、哪些场景他不希望被打扰,哪些场景下希望 Agent 主动提供帮助。通过机器学习,Agent 就能逐渐学习用户的偏好,形成个性化的推送策略。这就像养了个电子宠物,越用越懂你!不过,这需要用户投入一定的时间和精力,需要设计足够有趣的交互方式。

脑洞一下,可以用在教育领域!想象一下,一个智能书包,可以根据学生的课程表和学习进度,主动提醒学生带作业、复习功课。或者,一个智能台灯,可以根据学生的身高和坐姿,自动调节光线亮度和角度,保护学生的视力。这简直是懒人福音、家长救星!

我觉得最有意思的是在社交方面。想象一下,Agent可以根据你的兴趣和性格,主动帮你结识志同道合的朋友,甚至帮你安排约会!这简直是社恐福音。

别忘了老年人!未来的Agent可以成为老年人的智能助手,帮助他们解决生活中的各种难题。比如,如果老年人忘记了吃药或者迷路了,Agent可以及时提醒或者提供导航。甚至可以通过语音交互,陪伴老年人聊天解闷。有了Agent的帮助,老年人可以更加独立和有尊严地生活。