斯坦福华人团队揭秘:Pokee.ai以强化学习(RL)核心打造AI Agent,斩获千万美元种子轮融资

斯坦福博士朱哲清创办Pokee.ai,以RL为核心打造交互式AI Agent,完成1200万美元种子轮融资。颠覆传统AI Agent构建路径,引领智能体新方向。

原文标题:斯坦福毕业,用RL做Agent,华人创业团队种子轮融资1200万美元

原文作者:机器之心

冷月清谈:

Pokee.ai 创始人朱哲清,一位斯坦福博士、Meta 前资深研究员,投身 AI Agent 创业浪潮,其公司 Pokee.ai 刚完成 1200 万美元种子轮融资,产品公开测试版已上线。该团队的核心在于其独特的 AI Agent 构建方式,区别于主流以大型语言模型(LLM)为核心的路径,Pokee.ai 的决策与任务执行完全基于强化学习(RL)结构,而 LLM 仅作为人机交互界面,旨在理解用户意图。朱哲清认为,这种方法能使 AI Agent 在特定任务的策略选择和规划能力上超越人类,更接近他所定义的“通用Agent”形态——即用户只需提供简单指令,Agent 便能自动调用所需工具完成任务,无需额外配置。尽管在创业初期,其 RL 核心的理念不被多数投资人理解,但随着行业发展,这一“非共识”已逐步成为“共识”。

文章还探讨了通用 Agent 的发展阶段与挑战。朱哲清指出,当前 AI Agent 仍处于第一步:解决实际问题。未来更深层次的突破在于用户意图的“对齐”(Alignment)与“个性化”(personalization),这需要 Agent 通过与用户的长期交互建立记忆,理解其真正意图。他强调,LLM 的进步将直接影响 Pokee.ai 理解用户 intent 的能力,二者并非竞争关系而是互补。此外,Pokee.ai 团队坚持轻量级、高效的运作模式,目前仅有 7 名成员,且全员远程办公。

怜星夜思:

1、文章提到Pokee.ai以强化学习(RL)为核心构建AI Agent,而LLM主要充当“UI层”。这种架构的优势似乎在于动作空间更广。那么,从长远来看,RL Agent在处理复杂、多步骤任务时,相较于纯LLM驱动的Agent,可能面临哪些独特的挑战或限制?
2、创始人朱哲清提到,目前Agent行业还停留在“解决问题”的第一步,而“意图对齐”和“个性化”是未来的更深层探索。你认为在技术和伦理层面,实现这种高度“对齐”和“个性化”的AI Agent,我们可能面临哪些显著的机遇和风险?
3、Pokee.ai 团队坚持“轻量级”和全远程办公模式,甚至没有办公室。这种创业模式在AI领域,尤其是需要大量数据、算力和复杂模型研发的Agent赛道上,是否具有普遍的可复制性和可持续性?它的利弊又是什么?

原文内容

机器之心原创

作者:Youli

Pokee AI 公开测试版现已正式上线!


「哈喽,可以听到吗?」北京时间上午 10 点,大洋彼岸的 Pokee.ai 创始人朱哲清接通了我们的连线电话,此刻他正位于美国西海岸,当地时间为前一日晚上 7 点。



用他的话说最近的状态就是「忙」,非常忙。忙着发布 Agent 产品 Pokee AI 的公开测试版,忙着处理第一轮融资的各种后续事宜,忙着对核心 4 人组团队「扩张」至 7 人,忙里偷闲在小红书庆祝自己 29 岁生日,并在评论下认真回复网友提问……


「忙」,或许不是从最近开始的,往前数 200 多天,那时候也「忙」。忙着成立 Pokee.ai,忙着与 100 多位投资人聊如何用强化学习模型构建 AI Agent,忙着准备产品内测。


再往前数到 2017 年,依旧是「忙」。一边忙着在斯坦福攻读强化学习方向博士学位。一边忙着在 Meta 工作,带领团队将强化学习落地到广告竞价、自动内容生成等业务,为公司带来高额增收。


朱哲清似乎已经习惯了「忙」。可他说,创业虽然忙,但有了更多的时间去思考,这是一种全新的体验……


创业是从去年 10 月开始的,公司名为 Pokee.ai,取自「小口袋」之意,寓指做一个轻便、决策能力强、随叫随到解决问题的模型。公司整体定位是聚焦于开发一款交互式、个性化、高效的 AI Agent。



但较之主流以 LLM 为核心的 AI Agent 构建方式,Pokee.ai 是以 RL 为核心,用朱哲清的话说,在 Pokee 的架构中,LLM 主要是充当人机交互界面,类似「 UI 层」,用以理解用户意图,而真正决策、执行任务的全都是基于 RL 结构完成。


但那是去年 10 月,OpenAI 还没有发布 o1,将 RL 推向大众,DeepSeek 也还没有引起全球狂欢。


在与大多数的投资人聊的时候,他们都觉得 Pokee.ai 这个方向是天方夜谭…… 如今,它已经慢慢从「非共识」变成了「共识」,而 Pokee.ai 也迈进新阶段。


最新消息,Pokee.ai 完成 1200 万美元种子轮融资,由 Point72 Ventures 领投,Pokee AI 的公开测试版现已上线。


本周,在 Pokee 正式公测前,《机器之心》与朱哲清聊了聊,以下为对话内容:


机器之心:Pokee.ai 去年 10 月成立,如今产品正式公测、完成种子轮融资,这样的节奏在你预期内吗?


朱哲清:整体节奏比较快,去年 10 月 Pokee.AI 成立,从概念验证,到通用 Agent 框架搭建,再到如今产品公测和融资宣布,其实也才 7 个多月。之前定的目标是,今年上半年最重要的是做完产品第一轮公测、拿到种子轮融资,现在全部完成,总体来说符合预期。


与 Meta 相比,节奏大概会快 4—5 倍,对我来说生活和工作节奏没有太大变化,甚至有更多时间去思考。我之前工作时同步在读博士,那时候特别忙,一周可能要工作 100 多个小时,现在还是 100 多个小时,但思考的时间变多了。


机器之心:你做的事情其实很少有人做,你印象中投资人问的最多的问题是什么?


朱哲清:刚开始和投资人聊的时候,总体感受就是他们不理解为什么要用一个跟别人不一样的方式去做 Agent,那时候 RL 又不火、DeepSeek 也没出来。当我第一次跟投资人说我们最终想做的是让一个 RL System 变成一个像通用操作系统一样的东西时,他们都觉得这是天方夜谭。


机器之心:说到做 AI Agent 的初衷,你曾说 Pokee.AI 做的是「目标不是像人一样完成任务,而是超过人类在某些任务中的策略选择和规划能力。」这是不是现在很火的 ASI 概念?


朱哲清:我觉得 ASI 与 AGI 的定义范畴其实很模糊,从某种意义上来说,我们可能已经实现了 ASI,如果给你一个 100 万 Token 的文章,人类要读很久才能把它读完,而模型只需要几秒或几十秒钟就完成了,那从这个角度来说它已经 Super Human Intelligence。


我们距离 Agent「ChatGPT 时刻」还有多远?


机器之心:在你看来,一个通用 Agent 应该具备哪些特点?


朱哲清:一个通用 Agent 的核心能力在于,不管是在什么场景下,要解决什么问题,只要把 prompt 告诉它,它就可以把任务完成,而不需要事先去配置要用哪些工具。


我们的设想是,客户给到一个 prompt,说这是我要做的事情需求,这家公司或者开发者不需要处理,直接将 prompt「扔」给 Pokee, Pokee 就根据 prompt 调用对应工具,把问题解决,将结果直接传回给公司或开发者,之后后者可以把内容用更好的展现形式反馈会给客户。


机器之心:可以理解为这是 AI Agent 的「ChatGPT 时刻」吗?现在处于什么阶段?


朱哲清:是的,这是一个完完全全不需要人为配置的 AI Agent,也是我们的最终设想。现在的 AI Agent 需要的(工具)配置量很大,要匹配 MCP Server、找工具,而在 prompt 下面可以加的工具很有限,也不能拼命加,那总体的训练量就很大。


机器之心:所以当时创业是因为看到这些局限性,Pokee.ai 是如何做的?


朱哲清:我们想做的就是如何能够让第三方开发者在几乎不需要做任何开发的情况下完成 AI Agent 的搭建,不管是 No Code 还是 Low Code。No Code 是指 Pokee 直接跑一个 prompt,得到工作流后,直接复制粘贴给无数个场景下面;Low Code,是指别人通过我们的接口把他们想要解决的问题以 Prompt 形式传过来,从而把问题解决了,也不用告诉我们要用什么工具。


机器之心:以 RL 为核心的 AI Agent 和以 LLM 为核心的 AI Agent 的差异性在哪里?


朱哲清:首先,当下的很多 LLM 也用强化学习,而我们做的强化学习模型的工具调用范围和常规 LLM 模型的工具调用范围不一样,具体来说是动作空间 (Action Space) 的区别,就是 LLM 模型的动作空间只有 Token,而强化学习模型的动作空间可能不是 Token,是那些工具,直接通过工具本身的泛化性来完成对于 AI Agent 的搭建。


机器之心:在你对通用 Agent 的描述中,对 prompt 的要求很高,但似乎并不是每个人都会提问题,如何看待这一现象?


朱哲清:是的,现在用户在使用 Pokee 的时候也会遇到这个问题,已经把 prompt 给你了,可为什么你写出来的东西不是我想要的?关键就在于,用户给的 prompt 可能并不是他们的真正意图,想做的和说的是两回事。


该如何理解意图就叫做对齐(Alignment),这件事情非常难,因为没有一个 Ground Truth,每个人说话方式都不一样。如果真的想要找到 Ground Truth,说用户一定指的是这件事情,那必须要通过和这个人的长期 Memory 联系起来才能够找到。


如果我来评判这条路径上该怎么走,就是先要能够解决问题,之后把用户的非训练数据进行个性化(personalization) ,然后要去理解、对齐。大概就是三步走 —— 决策能力、对于 Memory 的 personalization、Alignment。


机器之心:能否举例说一下?


朱哲清:比如之前投资人在试用我们产品时,写了一个 Prompt—— 能不能帮我 draft 一个 LinkedIn Post?那这个「draft」的意思到底是「单纯帮我写好但不要发出去」还是「帮我写好并直接发出去」?


要想了解他的真正意图就需要去看过往给他的员工或者同事说这句话的时候,他会怎么说,以及后者的回复,通过他们之间的交互来确认他说「draft」的意思。这是很复杂的一件事情,需要非常个性化的 Memory 才能完成。


机器之心:那当前处于哪一步?


朱哲清:整个行业第一步都还没做完,更别说二、三步了(笑)。


机器之心:基于此,该怎么做?


朱哲清:我觉得这是一个很有意义也非常前瞻的问题,但从商业化角度来说,这不是第一优先级,最先聚焦的应该是能不能解决问题?先把问题解决了,然后再往下探索能不能更好地理解(问题)。


机器之心:据了解,Pokee 的架构是,将小型 LLM 作为人机交互界面,类似「 UI 层」,用于理解用户意图,而真正决策、执行任务的全部基于强化学习结构来完成。基于这一理解,其实你们对于 prompt 的要求很高?


朱哲清:对,这就复杂得多了,所以我一直说,LLM 做得越好,我们就能做得越好。虽然我们是将 RL 而非 LLM 作为 AI Agent 核心,但我们与 LLM 并非竞争关系,如果纯语言方向不能变得更好,我们也会有瓶颈,根本无法完全完整地理解用户到底要说什么。


创业,一个孤独的漫长旅程


机器之心:从离开 Meta 开始创业到现在有大半年时间,你觉得工作和创业有什么区别,最大的感受是什么?


朱哲清:区别很大,期间也有过挣扎,但不是因为时间管理、劳累,而是创业本身是一条很模糊的路,或者说本来就没有路,你想走成什么样,它就是什么路。作为公司 CEO,看似有很大的话语权,你说要往哪走就往哪走,但实际上能做的决策数量有限,要对公司、大家负责。


在大公司不一样,可以做无数次决策,甚至可以换组,这个东西做不下去就换个方向。


机器之心:据了解,团队从成立到今年 4、5 月份一直是四人核心配置,现在有多少人?有没有考虑扩张?


朱哲清:目前团队有 7 个人,接下来还会招两三个人,但是大概率在收入规模扩大前不会将团队配置超过 10 个人。


机器之心:所以也可以说 AI 时代的创业更为「轻量级」?


朱哲清:是的,AI 时代,模型、产品打磨各方面其实用不了很多人,人多了,反而做事情会蹑手蹑脚。


机器之心:你们办公室位于哪里?日常工作状态是怎样的?


朱哲清:我们没有办公室。


机器之心:那平时开会也是线上?


朱哲清:全部线上,因为有人在西雅图,有人在湾区,还有人在新加坡,都不在一起。另外我们都是 Meta 出身,习惯了远程办公,即便没有办公室,效率也挺高,而且还能兼顾生活。现在,我们每天线上开一个会,要做什么,大家一起讨论决定。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

你说Pokee.ai没有办公室,全员远程,这简直就是我梦想的打工方式啊!优点就是,省钱!租办公室多贵啊,电费网费物业费一堆,省下来的钱给兄弟们发福利不香吗?而且全球招人,能找到最顶尖的大牛,不用管他在北极还是南极。想效率低都难!但缺点嘛…嘿嘿,那就是老板不能随时“视察”你有没有摸鱼了!开玩笑的。其实是,万一遇到个啥核心机密,你敢让大家在家用自己的网吗?数据安全咋办?还有就是,同事之间平时吃个饭喝个咖啡,增进感情的事儿,远程就少了。长期下去,会不会彼此就成了冷冰冰的“代码搭子”,没有了那种一起奋斗的激情?这可是个大问题哦!

说到未来AI的“意图对齐”和“个性化”,机会嘛,就是以后你的AI助手简直就是你的“蛔虫”,你一个眼神,它就知道你要干嘛,生活效率直接拉满!点个外卖都不用多说,它知道你今天想吃辣还是想吃清淡,爽不爽?但是风险也大啊!你想,它把你摸得门儿清,你的隐私还剩多少?万一哪天它被黑客攻破了,你所有的小秘密,从银行密码到每天的思考路线,都成了人家手里的牌。再说了,它要是太懂你,会不会让你变得越来越懒,越来越依赖,最后自己都不会思考了?这不就成了AI的“养成系傀儡”了吗,想想都可怕!

问到RL Agent的挑战,我倒觉得,“探索-利用”的平衡是个永恒的难题。当任务变得非常复杂且具有稀疏奖励时,RL Agent很容易陷入局部最优,或者在漫长的探索中效率低下。LLM虽然也有其局限性,但其强大的语言和世界知识理解能力,能为任务的规划和分解提供高层次的语义指导,这在一定程度上弥补了其在低层动作控制上的不足。RL Agent若想完全独立处理复杂任务,需要解决样本效率、奖励设计以及与高层语义理解结合的问题,这绝非易事。

关于“意图对齐”和“个性化”的机遇与风险,从哲学角度看,这触及了人机关系的本质。机遇在于,这为人类提供了前所未有的“智能共生体”,能够以前瞻性的洞察力协助我们。Agent不再仅仅是工具,更是某种意义上的“数字镜像”,能够高度预测和满足我们的需求,有助于提升认知效率和创造力。然而,风险则在于“数字主宰”的可能性。当Agent能精准预测并“对齐”我们意图时,它是否也在无形中塑造甚至引导我们的意图?这种潜移默化可能削弱个体的自主性、独立思考能力,以及面对不确定性和多样性的适应能力。此外,高度个性化数据可能形成的数字足迹,其安全性与权力集中带来的潜在滥用,构成了对个人自由和民主社会基石的严峻挑战。

从组织行为学视角看,Pokee.ai 的轻量级、全远程模式在AI创业初期具有显著的适应性优势。首先,AI研发的核心资产是人才的智力资本,而非物理空间。远程模式突破了地域限制,使得公司能以更低的成本汇聚全球顶尖的AI科学家和工程师。其次,这种模式赋予个体极大的自主性和灵活性,有助于激发创新思维,这对于需要高度创造力的AI算法研发至关重要。最后,AI时代的“产品”往往是软件、模型,交付流程高度数字化,天然适配远程协作。然而,其可持续性则取决于公司的管理和文化建设能力。如何通过有效的异步沟通工具和定期的线上交流,维持团队的凝聚力、确保知识的高效传递、以及在需要高带宽协同解决复杂技术难题时仍能保持高效,是其长期面临的挑战。这考验的是管理层对“信任文化”和“自驱力文化”的构建深度,而非仅仅是工具的使用。

针对“RL Agent在处理复杂任务时可能面临的独特挑战”这个问题,我认为主要有几点。首先,RL的训练通常需要大量的环境交互和试错,这在物理世界或仿真成本高的场景中非常昂贵且耗时,远超LLM的预训练数据规模。其次,RL模型的泛化能力常是难题,一个在特定环境中训练好的策略,在稍有变化的场景中可能就失效,不如LLM经过海量文本训练后展现出的普适性。最后,RL的可解释性一直是个老大难,Agent做出的决策路径往往是黑箱,这对于需要高可靠性和透明度的应用场景来说是个大障碍,相比之下,LLM至少能提供一个相对“可读”的推理过程。

关于“轻量级”和全远程办公在AI领域的复制性和可持续性,我持谨慎乐观态度。利处是显而易见的:极大降低运营成本,获取全球人才不受地域限制,提高团队灵活性和工作效率(消除了通勤时间)。对于AI产品,尤其早期,主要输出是代码和算法,物理空间需求不高。然而,弊端也不容忽视。首先,AI研发往往涉及核心机密数据和模型,全远程对信息安全和数据合规性是极大挑战。其次,高强度、创新性的AI研发需要频繁的头脑风暴和非正式交流,远程模式下这种“化学反应”可能减弱。再次,对于需要物理测试环境或复杂硬件集成的AI项目(如Robotics AI),远程办公的限制会非常明显。最后,团队凝聚力、企业文化建设在没有物理接触的情况下,需要付出更多努力。因此,它并非普遍适用,而是更适合特定类型的AI研发公司。

当谈到“意图对齐”和“个性化”的AI Agent时,机遇显而易见:效率极大提升,例如AI能更准确地理解复杂指令,为用户提供几乎完美匹配的需求服务;在教育、医疗等领域,个性化Agent能提供定制化教学或诊疗建议,实现千人千面的极致体验。然而,风险也同样突出。技术层面,如何精确捕捉、存储和更新个人海量非结构化记忆,同时保证其隐私和安全,是一个巨大的技术挑战。伦理层面,过度个性化可能导致“信息茧房”效应加剧,用户只接触到AI认为他们想看的信息,削弱多元思考。更深层次的,AI对人类意图的“精确对齐”若被滥用,可能用于操纵用户行为或观点,甚至消磨人类的自主决策能力,这绝对是个潘多拉魔盒。

关于RL Agent的挑战嘛,我觉得就是我们玩RPG游戏升级打怪那些事儿!你想啊,RL得一个劲儿地“试错”,就像你开局啥都不会,得碰壁无数次才知道怎么走。遇到一个全新的任务,它可能就彻底懵圈了,得从头再学。不像LLM,好歹它脑子里存了“攻略本”,能举一反三。所以,RL要处理那种瞬息万变、规则不明确的复杂情况,那可真是“臣妾做不到啊”!除非它能像人类一样,先看几部电影,读几本书,有个初步概念了再去实践,不然就得靠无休止的“撞大运”。