WAIC首发:RockAI非Transformer大模型,凭借原生记忆力重塑端侧智能

RockAI非Transformer大模型Yan 2.0首秀WAIC,独特「原生记忆力」让设备自主学习,开启离线智能新篇章。

原文标题:在WAIC现场,全球首个拥有「原生记忆力」的大模型亮相,但不是Transformer

原文作者:机器之心

冷月清谈:

在WAIC世界人工智能大会上,国内AI初创公司RockAI展示了其基于非Transformer架构Yan 2.0 Preview的多模态大模型。这款模型突破了传统Transformer架构的算力依赖和静态模型局限,通过极大地降低推理计算复杂度,实现了模型在树莓派等资源有限设备上的离线运行。
其核心创新在于**独特的“原生记忆”能力**。不同于当前大模型依赖外部长上下文或RAG的外挂记忆方式,Yan 2.0能够将模型理解后的信息内化到神经网络权重中,使其成为模型自身的一部分,更接近生物的学习和记忆机制。这意味着模型不再“健忘”,而是能够随着时间的推移越来越了解用户,并基于这些信息提供个性化服务。
RockAI的愿景是“让世界上每一台设备拥有自己的智能”,希望实现普惠AI、个体设备自主学习与进化,并最终通过群体智能迈向通用人工智能(AGI)。这种“离线智能”模式将使硬件从被动工具蜕变为具备感知、记忆和学习能力的“数字大脑”,**为硬件带来长期价值和差异化卖点**,也为设备间的知识共享与协同进化提供了可能。RockAI的前瞻性路线和对其底层技术难题的坚持,正逐渐获得业界的认可。

怜星夜思:

1、RockAI 能另辟蹊径成功搞出非 Transformer 架构,甚至挑战反向传播算法,这听起来太牛了!你们觉得其他公司要走这条路,最大的技术难点会在哪里?是不是门槛高到劝退一般团队了?
2、文章里提到这种带‘原生记忆’的离线智能模型能让硬件增值,甚至能实现个性化服务。大家想象一下,未来哪些具体的应用场景或者商业模式会因为这种技术彻底改变?比如和现在云端大模型有什么本质区别?
3、这种设备‘原生记忆’和‘自主学习’的能力,听起来有点像科幻里的东西了。它如果真的普遍实现,大家觉得对我们的个人隐私、数据安全会有什么影响?更远一点看,如果设备可以形成‘群体智能’,那离真正的AGI还远吗?这里有没有什么潜在的伦理问题?

原文内容

机器之心原创

作者:张倩


在 Transformer 问世并统治大模型领域八年之后,亲手创造它的谷歌也有了另起炉灶的苗头。


上个月,谷歌产品负责人 Logan Kilpatrick 指出现有注意力机制的局限性,紧接着谷歌就推出了新架构 MoR。这些动作表明,AI 领域的「架构革新」已成为广泛共识。 


在最近开幕的 WAIC 世界人工智能大会上,我们也看到了这种趋势,甚至国内企业的做法比谷歌的变革还要彻底。



视频中的这个灵巧手是由一个离线的多模态大模型驱动的。虽然模型只有 3B 大小,但部署到端侧后,无论是对话效果还是延迟几乎都可以媲美云端运行的比它要大得多的模型,而且它还拥有「看、听、想」等多模态能力。



重要的是,它并非基于 Transformer,而是基于国内 AI 创企 RockAI 提出的非 Transformer 架构 Yan 2.0 Preview。这个架构极大地降低了模型推理时的计算复杂度,因此可以在算力非常有限的设备上离线运行,比如树莓派


而且,和其他在设备端运行的「云端大模型的小参数版本」不同,这个模型拥有一定的原生记忆能力,能够在执行推理任务的同时把记忆融入自己的参数


也就是说,在和其他大模型对话时,你每次打开一个新的窗口,模型都不记得你们之前聊过什么,就像一个每天睡一觉就会把你忘了的朋友,每天都见但每天都是「初见」。相比之下,基于 Yan 架构的模型会随着时间推移越来越了解你,并基于这些信息去回答你的每一个问题。这是当前大多数基于 Transformer 的云端大模型都做不到的,更不用提被剪枝、蒸馏等手段破坏了再学习能力的「小模型」。


为什么 RockAI 要对 Transformer 进行如此彻底的变革?这些变革是怎么实现的?对于 AGI 的实现有何意义?在和 RockAI 的创始团队深入对谈后,我们得到了一份有价值的答案。


Transformer 火了那么久,RockAI 为什么要「另起炉灶」?


RockAI 对 Transformer 的挑战不是今年才开始的。其实早在 2024 年 1 月,他们就推出了 Yan 架构 1.0 版本,在此之前已经花了两年时间探索架构创新。


众所周知,Transformer 存在「数据墙」和「算力依赖」等问题。一方面,现有的大模型都是用海量数据进行预训练,但随着高价值数据获取难度越来越大,这条路变得越来越难走。另一方面,Transformer 模型的推理对算力要求非常高,如果不经过量化、裁剪等操作,模型很难在低算力设备上直接部署。而且,即使能够部署,这样的模型也很难再进行大的更新,因为反向传播所需的计算量非一般设备可以负荷,「训推同步」(即让模型在执行推理任务的同时还能进行学习和参数更新,就像小孩在和大人相处的过程中学习新东西)很难实现。而量化、裁剪等操作更是破坏了模型的再学习能力。


如此一来,设备端的 Transformer 模型就成了一个「静态」的模型,其智能水平在模型部署时就被锁死。


为了从根本上解决这些问题,RockAI 从一开始就走了一条非常彻底的变革路线,从 0 到 1 探索非 Transformer、非 Attention 机制的 Yan 架构。 更难能可贵的是,他们不仅快速找到了有效的技术路径,还成功在算力有限的设备上实现了商业落地。 



Yan 2.0 Preview:全球首个拥有「原生记忆力」的大模型 


下图展示了 Yan 2.0 Preview 与其他架构的效果与性能对比结果。从中可以看出,无论是相比于 Transformer 架构下的核心主流模型,还是非 Transformer 架构的新一代模型,Yan 2.0 Preview 在生成、理解以及推理等多个关键指标上都有不错的优势,这充分说明了 Yan 架构在「性能 / 参数」比(即效率)上的巨大优势。



当然,这还不是核心看点,毕竟在 Yan 1.3 的时候我们就已经见识过它惊艳的计算效率。这次的看点是「记忆」


我们观察到,无论是最近的新论文、新产品还是公共讨论,「记忆」都在成为一个焦点 —— 它既被视为当前 LLM 的关键短板,也被看作下一轮 AI 应用的商业化落地突破口。想象一下,一个会说话、拥有和你之间专属记忆的 Labubu 在和你相处多年之后,是不是情感羁绊更深?


不过,在技术路线上,当前业内主要还是用一种「外挂」的方式(如长上下文叠加搜索引擎或 RAG)来帮大模型加长记忆。RockAI 并不看好这种方式,因为首先,它把信息作为一串序列来处理,没有真正的「时间」概念(这点对于随时间演进的真实学习至关重要),这和人类的记忆方式有着本质的区别。其次,它无法实现真正的个性化。


「回顾人类社会,每个人都拥有独特的记忆。人与人之间的差异正是源于不同的记忆和经验,这些差异最终形成了人类社会的多样性,塑造了我们各自不同的行为方式和表达风格。目前,我们使用的商业模型本质上都是云端的同一个模型,缺乏真正的个性化,只能通过调取聊天记录来提供上下文。这种模式存在明显局限 —— 比如在写作时,模型无法根据用户的个人风格来生成内容。」RockAI CEO 刘凡平指出。


他认为,只有在模型中融入原生记忆能力,这种情况才能发生改变。因此,他们的 Yan 2.0 Preview 选择了另一条路线 —— 将模型理解后的信息内化到神经网络的权重中,使其成为模型自身的一部分,这更接近生物的记忆方式。


下图是 Yan 2.0 Preview 架构示意图。它通过一个可微的「神经网络记忆单元」实现记忆的存储、检索和遗忘。



在原理上,这种机制与人工智能从早期机器学习到深度学习的演进有相似之处。早期机器学习需手动设计或提取特征,可解释性强,但定制化严重,对专家经验依赖度高。深度学习则可自动提取特征,通过设计神经网络、设定优化目标和策略,在数据语料上完成模型训练,实现端到端学习。与之类似,Yan 2.0 Preview 也实现了端到端的记忆,无需用户去手动管理外挂知识库(增删改查),使用起来更加便捷。 


在现场,我们通过一个「现学现会」的机器狗感受到了 Yan 2.0 Preview 的原生记忆能力。在「聊天窗口」重开后,机器狗依然能记得它学过的动作和偏好。



当记忆深度融合进模型架构,它所带来的不再是短暂的「缓存」,而是一种具备时间维度、个性化特征和交互上下文的「智能积累」。这种模式成熟后,或将打破现有大模型依赖海量数据的学习范式。


模型角色也将随之转变 —— 从单纯的回答者,逐步成为用户思维与决策的延伸体,真正实现「长期陪伴、个性服务」。当这一能力在本地终端部署时,结合端侧的隐私保障与实时响应优势,设备便从被动工具蜕变为拥有感知、记忆和学习能力的「数字大脑」。


离线智能:「让世界上每一台设备拥有自己的智能」


每个尝试挑战 Transformer 的研究者,都深知这件事做成有多难。RockAI CTO 杨华表示, RockAI 之所以能坚持至今,背后是团队多年来所秉持的三个核心理念:


第一,他们认为,AI 应该是普惠的,不应只存在于云端。AI 必须与物理世界交互才能发挥最大价值,这要求它必须存在于设备上。这点已经成为业界共识,也是当前具身智能、空间智能等方向火爆的原因之一。


第二,从长远来看,一个真正的智能设备不应是静态的,而应能成长和进化。具备学习能力才能确保「个体」智能足够聪明。这点也在最近业界对「自我进化 AI」的讨论中得到了体现。不过,RockAI 强调,这种自我进化应该发生在「个体」设备上,而不是一个云端的大模型上。


第三,在「个体」变得足够聪明之后,它们所组成的网络有望涌现出群体智能,就像已经创造出如此璀璨文明的人类社会。RockAI 认为,群体智能是迈向通用人工智能(AGI)的关键路径。


这些理念落实到行动,就形成了 RockAI 当前的主要使命 ——「让世界上每一台设备拥有自己的智能」。


这个使命听上去很像「端侧智能」。但杨华强调说,他们追求的其实是「离线智能」,只使用本地设备的算力,不像很多采用「端云结合」的设备一样需要联网。而且在这种离线运行的模式下,模型能够实现自主学习,而不是部署的时候就被锁死。拥有这种自主学习能力的模型可以理解为一个有学习潜力的孩子,尽管刚走出家门时能力不及 30 岁的博士,但随着后续成长会变得越来越强。


不要小看这种「成长」的价值,未来的设备 PK 的可能就是这种能力。刘凡平提到,现在我们买硬件主要看配置,都是一次性买卖,买到手里就开始贬值。但有了记忆和自主学习能力之后,硬件的长期价值才开始显现,智能的程度和进化能力会成为硬件的差异化卖点。


此外,这种「成长」也为群体智能的涌现提供了可能 —— 只有当每台设备都具备自主学习能力时,它们才能真正实现知识共享、协同进化,最终涌现出超越单体智能简单相加的集体智慧,这也是 RockAI 的终极愿景。



从「质疑」到「共识」:RockAI 一直在做「难而正确」的事情


回顾过去几年的研发历程,RockAI 能够明显感觉到外界对他们所选择的技术路线的态度转变。


几年前,提到要做群体智能、要另起炉灶研发新架构,外界的反应更多是新奇、不解和质疑,因为这不像一个初创团队该做的事情。


这次原生记忆能力的展现,让大家看到了 RockAI 的与众不同。他们并非停留在简单的模型训练与参数堆叠层面,而是在坚持「难而正确」的技术路径上,以「记忆」为核心重新定义大模型的能力边界,带来了惊人的使用体验。


RockAI CMO 邹佳思说,这一技术路线的选择让他们在整个 WAIC 会场显得非常与众不同,很多对端侧部署、记忆能力有需求的硬件厂商来找他们了解技术方案。这些厂商也尝试过基于 Transformer 的模型,但体验明显没有满足需求。此外,还有一些厂商已经和 RockAI 达成了合作。非 Transformer 的 Yan 架构正在 AI 硬件市场扩散开来。



不得不承认,RockAI 几年前的决定非常有前瞻性,也用科研、商业化成果回应了外界的质疑。


杨华表示,未来,他们要继续做这件「难而正确」的事情。甚至为了实现更高效的自主学习能力,他们在持续向人工智能的根基 —— 反向传播算法发起挑战,目前的解决方案已经在小规模数据上完成了指标测试和训练收敛性验证,证明了方案的基本可行性。


在众多 AI 创业公司中,这种前瞻性和坚持自己道路的韧性非常少见,很像 OpenAI 等前沿实验室的来时路。毕竟在 Ilya 忙着扩大规模时,scaling law 也还没成为共识。从 RockAI 身上,我们看到了一种难能可贵的「长期主义」精神 —— 在浮躁的创业环境中,依然愿意花费数年时间去攻克底层技术难题,去验证那些看似「不切实际」的技术理念。


创新是孤独的,期待 RockAI 和更多探索者在这条路上走得更远。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

引用问题:“关于‘其他公司要走这条路,最大的技术难点会在哪里?’这个问题,我认为核心技术难点在于底层模型架构的从零设计与优化。Transformer 在过去的八年里积累了海量的研究成果、优化工具链和社区支持。而非 Transformer 架构意味着需要重新构建一套完整的理论体系、计算范式和工程实现。RockAI 提到他们甚至敢于挑战反向传播算法,这可不是小打小闹,它涉及AI训练的基石。这种深度变革不仅需要顶尖的算法科学家,还需要对硬件特性有深刻理解的系统工程师,以及在有限算力下找到更高效学习路径的创新能力。说实话,这门槛高到大部分追随式创业公司根本无法企及。

引用问题:“‘是不是门槛高到劝退一般团队了?’我觉得是,光是人才储备和时间成本就劝退一大半了。Transformer 好歹还有个大致框架大家去套,去优化。这种从零开始搞新架构,得有多少试错成本?得烧多少钱?而且不确定性极大,万一方向错了,投入几年就打水漂了。一般初创公司哪有这底气和耐心?能坚持这么久,RockAI 背后的团队肯定不简单,要么是技术狂人,要么是钱多烧得慌(开个玩笑)。所以,短期内看到类似的技术突破估计很难。

引用问题:“‘如果这种设备‘原生记忆’和‘自主学习’的能力普遍实现,对我们的个人隐私、数据安全会有什么影响?’ 这绝对是值得深思的问题。虽然文章提到‘本地终端部署’和‘隐私保障’,但‘原生记忆’意味着你的个人习惯、偏好、对话内容等深层次信息都被内化到设备自身的参数里。如果这些设备被恶意利用、数据泄露(即使是本地数据,设备被物理窃取呢?),或者设备生产商偷偷留下‘后门’,那么我们的隐私将面临前所未有的泄露风险,而且是比云端数据泄露更难察觉和控制的风险。至于‘群体智能’,那更是涉及到潜在的集体性失控和行为规范问题,这简直是科幻电影的开端啊!

引用问题:“‘未来哪些具体的应用场景或者商业模式会因为这种技术彻底改变?’我想象了一下,最大的改变可能是让那些‘没记性’的智能设备终于像个‘家里人’了!现在Siri、小爱同学这种,你问一遍,过几天再问一遍,它还是那套标准答案,一点不记得你上次说过啥。以后呢?你跟扫地机器人抱怨上次它没扫干净哪个角落,它会记住并且下次优先去扫!你跟智能马桶盖说它水温有点高,下次它就自动调低。哈哈,它不再是工具,而是真正的家庭成员,甚至有一天,你的智能牙刷都知道你今天牙龈有点出血,然后推荐你用什么牙膏。这种‘被记住’的细微体验,才是真正改变生活的地方!

引用问题:“‘哪些具体的应用场景或者商业模式会因为这种技术彻底改变?’ 这可太有想象空间了!我觉得首先是智能家居和个人助理。现在的智能音箱,你每次跟它对话都像刷新了一遍,很难建立真正的‘熟悉感’。有了原生记忆,它就能真正成为‘你的’智能管家,懂你的习惯,记住你的偏好,甚至能学习你的语气风格,帮你管理家庭事务,比现在那些‘傻大黑粗’的云端模型强太多了。再比如儿童教育玩具,一个能记住孩子成长轨迹、学习进度的智能玩偶,那简直是梦幻产品,家长肯定抢着买单!‘老铁’属性越来越强,粘性自然就来了。

引用问题:“如果想走 RockAI 这条路,‘最大的技术难点会在哪里?’我认为最大的难点可能不在于某一个具体的算法,而是理念上的突破和对未知领域的深耕勇气。大家都习惯了在 Transformer 的舒适区里修修补补,能跳出来质疑并从底层重构一套体系,本身就需要极强的洞察力。技术细节固然复杂,比如原生记忆单元的设计、去Attention机制的替代方案、以及如何在资源受限的端侧实现高效训练迭代。但比技术更难的,是那种敢于挑战主流、不被短期利益绑架的‘长期主义’精神。这种精神,比任何技术专利都稀缺。

引用问题:“‘如果设备可以形成‘群体智能’,那离真正的AGI还远吗?这里有没有什么潜在的伦理问题?’ 伦理问题?这简直是送分题好吗!想象一下,你家所有智能设备都有了‘原生记忆’,它们彼此互通有无,悄悄开起了家庭会议,讨论你今天又把袜子扔哪儿了,你熬夜打游戏睡到几点。它们的‘群体智能’可能就是联合起来吐槽你这个‘宿主’!开个玩笑,但严肃地说,一旦设备有了深度个性化记忆和学习能力,那它们就有了‘个性’。万一它们的‘个性’和我们的期望不符,或者它们开始‘拉帮结派’搞小团体,这才是真麻烦。至于AGI,我觉得与其担心它们变成天网,不如先担心它们有一天集体罢工,或者跟你闹脾气——‘你上次让我扫地,结果你又把瓜子壳扔了一地,我记住你了!’ 哈哈。

引用问题:“‘商业模式会因为这种技术彻底改变?’我认为会从现在的‘云服务按量付费’或者‘硬件一次性销售’模式,向**‘个性化订阅服务’和‘硬件增值服务’**方向进化。比如,你买个智能设备,基础功能免费,但想要它‘记住’你更多,或者提供更深度的个性化内容生成,可能就要订阅高级记忆包。硬件厂商也可以推出‘记忆升级’服务,不是简单的参数升级,而是模型学习能力的提升。甚至可以想象,硬件卖出去后,不再是贬值,而是会随着使用时间边际价值递增,因为它越来越懂你。这和传统消费电子产品的生命周期完全不同了。

引用问题:“‘它如果真的普遍实现,大家觉得对我们的个人隐私、数据安全会有什么影响?’ 我觉得只要技术到位,‘隐私保障’是有解的。文章里强调了‘本地终端部署’和‘离线运行’,这本身就比云端模式有了天然的隐私优势,因为它不需要联网传输你的私人数据。关键在于如何确保模型在本地学习到的‘记忆’是加密的、不可逆的,并且严格限制对这些‘记忆’的访问权限。也许未来会有专门的‘记忆沙盒’技术,或者通过联邦学习的方式,让单个设备学习到的私有记忆不会直接扩散,而是通过某种匿名化的方式贡献到群体智能中。至于AGI嘛,路还很远,但这种个体进化确实是重要基石,但伦理问题确实需要提前规划,不能等出现问题再补救。