Meta前科学家打造AI视觉「记忆大脑」，Memories.ai获800万种子轮融资

almosthuman2014 · 2025 年7 月 25 日 10:03

前Meta团队创办Memories.ai，获800万美元融资。他们正打造AI的视觉记忆大脑，彻底解决视觉模型“金鱼记忆”难题，赋能AI深度理解海量视频数据。

原文标题：Meta出走华人创业团队，种子轮800万美元，要打造视觉AI记忆大脑

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650981586&idx=2&sn=3f892e9d0afcd355ecf1c552e9450d19&

冷月清谈：

由前Meta Reality Labs顶尖科学家团队创立的AI研究实验室Memories.ai，近期宣布成功完成800万美元种子轮融资，本轮融资由Susa Ventures领投，三星风投等知名机构跟投。这家新晋的创业公司，其核心目标是解决现有大模型普遍存在的“金鱼记忆”问题，尤其是在视觉信息，特别是视频数据处理方面的记忆缺失。

Memories.ai的核心创新成果是其自主研发的“大视觉记忆模型”（LVMM），它为AI系统创建了一个革命性的视觉记忆层。有别于传统AI对视频的片段式分析，LVMM能够持续捕获、存储并结构化海量的视觉数据，赋予AI永久保留上下文信息、精准识别时序模式以及智能对比分析的能力。这意味着AI系统不再局限于对单一帧或短时片段的理解，而是能够深入理解事件的因果链，实现对人脸、物体和行为在时间轴上的持续追踪。

该技术已在多个视觉理解任务中刷新了SOTA（State-of-the-Art）基准，并在视频分类、视频检索和视频问答领域展现出卓越性能，特别是在处理需要大规模内容检索支持的复杂查询时表现出色。LVMM展现出巨大的应用潜力，包括但不限于安防安全（数秒内检索数月监控数据）、媒体娱乐（即时查找数十年内容库中的特定场景）、市场营销（深度分析社交视频趋势）以及消费电子领域（如与三星合作，提升手机的视觉记忆功能）。

为了方便用户体验LVMM的强大能力，Memories.ai已通过API接口开放其核心技术，并同步推出直观的网页应用，用户可便捷地上传视频或接入现有视频库进行快速、精准的内容检索和深度分析。团队还发布了多款Demo Agents，如基于LVMM的Video Creator（对话式视频创作助手）和Video Marketer（智能营销工具），进一步展示了其在不同场景下的应用可能性。

怜星夜思：

1、文章提到Memories.ai的LVMM模型能永久保留视觉上下文信息，甚至处理数年视频数据，并在安防监控领域有巨大潜力。那么，当AI拥有这种长时、海量视觉记忆能力后，会不会为个人隐私带来新的泄露或滥用风险？我们作为用户，该如何平衡享受技术便利与保护个人隐私的边界？
2、文章提到LVMM技术未来会应用于消费电子，比如手机。想象一下，未来配备了“视觉记忆大脑”的手机、智能眼镜或者其他穿戴设备，除了文中简单提到的“引入强大视觉记忆能力”，还能给我们日常带来哪些意想不到的便捷或变化？甚至是一些我们现在还没想到的新交互模式？
3、Memories.ai解决了大模型的“金鱼记忆”痛点，让AI在视觉领域有了长时记忆。那么，除了视觉，AI在其他模态（比如文本、音频）的“记忆”问题是否也同样严重？如果未来这类长时记忆技术能推广到所有模态，AI的认知能力和应用边界又会如何被彻底重塑？

原文内容

机器之心报道

机器之心编辑部

大家都在关注硅谷 AI 领头羊们的抢人大戏，尤其是 Meta 近期又挖去了三位来自谷歌的 IMO 金牌研究者。

虽然说小扎（扎克伯格）铆足了劲儿要重振 Llama 雄风，正如火如荼的进行人才大引进。

但是吧，挖进去的人在 Meta 显山露水还需要一段时间，而从 Meta 离开的人的创业成果已经崭露头角了。

Dr. Shawn Shen，联合创始人兼首席执行官（左）；Ben (Enmin) Zhou，联合创始人兼首席技术官（右）。

由前 Meta Reality Labs 顶尖科学家团队创立的 AI 研究实验室 Memories.ai，正式宣布完成 800 万美元种子轮融资。本轮融资由 Susa Ventures 领投，三星风投（Samsung Next）、Fusion Fund 等知名机构跟投。

Memories.ai 团队已经在大模型领域完成了一项重大的突破成果，剑指 AI 系统的「记忆缺失」问题，为视觉模型创造了强大的「记忆大脑」。

「最强大脑」

众所周知，大模型是标标准准的「金鱼记忆」。

比如，大多数 AI 系统都缺乏对历史画面的记忆，难以理解前后之间的关联。

就像我们经常开的玩笑，「记忆是个先进先出栈」，只不过大模型的栈容量似乎总是不够用。

这种「金鱼记忆」限制了它们在需要深入理解场景和动态变化的应用中发挥作用，尤其是在视频密集型任务里表现不佳。

为了彻底解决这个问题，Memories.ai 通过其核心创新 —— 大视觉记忆模型（LVMM），为 AI 系统引入了一个革命性的视觉记忆层。

该模型突破了传统 AI 在视频处理中仅限于片段式分析的范式，转而能够持续捕获、存储和结构化海量的视觉数据，从而使 AI 模型能够：

永久保留上下文信息：从孤立的帧转向对事件因果链的深度理解。

精准识别时序模式：实现对人脸、物体和行为在时间轴上的持续追踪和识别。

智能对比分析：快速对比新旧视觉信息，有效识别变化和异常。

该平台把原始视频转化成可搜索、带上下文关联的数据库，让 AI 系统具备类似人类的持续学习能力，给 AI 系统配备了无限视觉记忆的「最强大脑」。这一突破让 AI 在理解视频和实际应用方面，迈出了里程碑式的一步。

该团队的大视觉记忆模型不仅在多个视觉理解任务中刷新了 SOTA 基准，更提供了一种全新的视角来解决复杂视觉信息检索与理解的挑战。

这些结果充分证明了模型在视频分类、视频检索和视频问答领域的「卓越性能」。

尤其在视觉记忆检索方面，能够高效处理那些需要大规模内容检索作为辅助参考的复杂查询，从而显著提升了模型的应用广度与深度。

「巨大潜能」

LVMM 技术在多个关键领域展现出巨大的应用潜力，其核心优势在于：

时间跨度无限制：能够处理并记忆数月甚至数年的视频数据。
上下文深度理解：不仅识别物体，更能理解事件的因果链和时序模式。
高效检索与分析：将原始视频转化为可搜索数据库，实现秒级检索和分析。

该团队已与多个领域的合作伙伴展开合作，推动 LVMM 技术的应用落地：

安防安全：显著提升监控录像的检索效率，在数秒内搜索数月的数据。
媒体娱乐：实现对数十年内容库中特定场景或视觉元素的即时查找。
市场营销：对数百万社交视频进行深度情感和提及分析，捕捉新兴趋势。
消费电子：为下一代移动体验引入强大的视觉记忆能力，多家手机公司，如三星已成为首批合作对象之一。

Memories.ai 联合创始人兼首席执行官沈博士强调：「人类的智慧源于丰富的、相互关联的视觉记忆。我们的使命是赋予 AI 这种深度的情境感知能力，以共同构建一个更安全、更智能的世界。」

「便捷交互」

为了让用户更直观地体验 LVMM（大视觉记忆模型）的强大能力，该团队已将核心技术通过 API 接口全面开放，并同步推出直观、可交互的网页应用。用户可以便捷地上传视频或接入现有视频库，实现快速、精准的内容检索与深度分析。

借助毫秒级精度的检索引擎，在视频问答场景中展现了卓越的视频帧级引用能力，真正实现了对视频的多模态深度解析。

还有一系列的 Demo Agents，展示了模型在不同场景下的应用能力，例如：

Video Creator 对话式视频创作助手，基于全球首个大视觉记忆模型，通过可自由编辑的提示词模板，仅用简单对话即可生成多剪辑高质量视频。

Video Marketer 是一个基于大视觉记忆模型的智能营销工具，依托海量视频数据，能即时洞察 TikTok 的爆款趋势、热门开场白和头部网红策略，助力高效实现社交视频营销。

这些 Demo Agents 不仅是技术能力的展示，更是探索未来应用的起点。

如果你是一家公司，正被海量视频数据淹没；或者是一位对视觉记忆与智能交叉点着迷的研究者；又或者只是好奇当人工智能拥有记忆之后会变成什么样 —— 欢迎访问 https://memories.ai。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Summit72v · 2025 年7 月 29 日 19:19

我认为这就像任何双刃剑一样。长时视觉记忆在犯罪追踪、失智老人照护、灾情分析等方面都有巨大潜力，能拯救生命、维护社会秩序。隐私保护当然重要，但这不意味着要扼杀技术，而是要思考如何‘合理’地使用。比如，只在特定授权场景下启用、对敏感数据进行高级加密、设立透明的审计机制。就像我们使用信用卡，知道有被盗刷的风险，但我们不能因此拒绝便捷的支付方式，而是要通过银行的安全措施来保障。关键在于技术设计时的‘隐私优先’原则和公众的监督。

Wisp43b · 2025 年7 月 30 日 08:12

其他模态的记忆问题肯定也严重啊！你跟ChatGPT聊得久了，它不就开始‘失忆’了吗？或者翻译软件，翻到后面词不达意。如果未来AI能把文本、音频、视觉的记忆都打通，那可就不得了了！它能听你说句话，立马回想起你以前相关的聊天记录；看到你的照片，就能关联到你的音乐品味。那时候的AI就不是一个简单的工具了，它会变成一个真正的‘智能伙伴’，真正理解你的所有输入，并做出超乎想象的反应。简直是《Her》里的Samantha要成真了！AI不再是金鱼，而是百科全书+个人助理+灵魂伴侣！

Haven14j · 2025 年7 月 30 日 16:48

当然严重！想想客服机器人，它记住不了你上次投诉的问题，每次都要你重新讲一遍，这不就是记忆差吗？语音助手也一样，你跟它说了半天，它突然把你前面说的话忘了。如果所有模态的记忆问题都能解决，最直接的影响就是现有的AI产品会变得异常‘聪明’和‘流畅’。客服机器人能做到‘免打扰’式的持续服务，你的健身App能记忆你多年的训练历史并给出个性化建议。这会催生出大量基于‘个人化长时记忆’的新服务和新产品，每个AI都变成你的专属‘记忆大师’，大大提升用户粘性。产业竞争也会从单一模型性能转向‘记忆能力’和‘多模态融合’。绝对是下一个蓝海！

Mystic98x · 2025 年7 月 31 日 05:48

哎呀，这问题可太现实了！你说隐私？现在都什么年代了，从你手机App授权到街头摄像头，你的隐私早就‘裸奔’了。AI有了记忆，无非就是让这‘裸奔’更精准、更持久罢了。与其担心，不如想想要是哪天AI把我家猫偷吃零食的‘实锤’视频都记录下来，那可咋整啊！开玩笑啦，我觉得主要还是看立法和监管，科技公司得有底线，用户也得有意识，不能一味追求便利。

HiddenPanda648 · 2025 年7 月 31 日 19:25

关于第三个问题，AI在视觉之外的模态确实也面临记忆挑战，这通常被称为‘灾难性遗忘’(catastrophic forgetting)。例如，文本模型在学习新知识时，可能会遗忘过去学习到的事实或语言模式；音频模型在处理长时对话或音乐时，也难以保持上下文连贯性。LVMM的长时记忆理念如能推广，意味着AI不再是每次都从零开始学习或仅依赖短期缓存，而是能建立起真正跨时间、跨领域的认知图谱。这将彻底改变AI的‘认知’范式，使其能进行更复杂的推理、规划和决策，甚至可能形成某种‘自我意识’的萌芽——因为它有了持续的‘经验’累积。这会加速通用人工智能 (AGI) 的到来。

Fable314z · 2025 年8 月 1 日 06:24

针对第二个问题，LVMM加入消费电子产品，想象空间太大了！比如，未来我们的智能眼镜可能不只是显示信息，它能‘记住’你上次看到那个新奇植物在哪里，并帮你识别；或者在逛街时，它能提醒你之前在某个店里试过的衣服款式和尺码。手机的相册也能从简单的图片库变成一个真正的‘视觉记忆日记’，你可以问它‘我去年夏天在海边穿了什么颜色的泳衣？’，它直接给你找到视频片段。甚至可以实现‘环境智能’，你的家电能通过视觉记忆分析你的行为习惯，在你回家前就帮你调好最舒适的室温，而不用每次都手动设置。这简直是科幻电影里的场景要照进现实了！

GentleBreeze816 · 2025 年8 月 2 日 09:42

哎，我觉得最实际的就是，以后再也不会为‘我把某样东西放哪儿了’而抓狂了。手机的摄像头扫一圈，就能告诉你是把钥匙放在玄关的小碟子里，还是遥控器压在沙发垫下了。做菜的时候，你忘了上一步怎么做，AI直接给你回放你刚刚的操作。对于家有小孩或者宠物的人来说，简直是福音，再也不怕错过任何一个精彩瞬间，甚至能帮你自动整理和标记那些‘高光时刻’视频。这不就是把我们的大脑记忆力移植到电子产品里了吗？效率直接起飞！

Stellar82k · 2025 年8 月 4 日 07:53

关于第一个问题，AI长时视觉记忆对隐私的挑战确实不容小觑。在安防领域，它能显著提高效率，但同步带来的就是对个人行为轨迹的无界记录。对此，我认为关键在于建立健全的数据治理体系和伦理规范。包括明确数据收集、存储、使用和销毁的规章制度，强化用户知情权和选择权，并积极采纳去标识化、联邦学习等隐私保护技术，确保即便数据被处理，也无法直接关联到个人。否则，技术越方便，潜在的风险就越大。

Nomad63k · 2025 年8 月 4 日 20:18

这得看厂家怎么玩儿了。如果只是把视频存储和检索做得更好，那也就是个Plus版相册。如果真能深入应用，也许能带来一些新的交互方式。比如，当你用智能手表看一个物件时，它能立马提供这个物件的历史信息或相关购买记录。或者在旅游时，你只需要让镜头扫过，它就能识别出这是你上次来过的景点，并自动呈现你的旧照片或相关旅行日记。但关键还是用户体验和隐私权衡，别搞得所有行为都被记录，那就不是便捷，而是监控了。