rbio1：虚拟验证让AI科学推理更靠谱

DatapiTHU · 2025 年9 月 11 日 09:13

rbio1用虚拟细胞为AI做“预实验”，让科学探索更严谨高效。

原文标题：从实验室到虚拟细胞，rbio1建立软验证框架，助力科研AI推理稳健升级

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247659720&idx=3&sn=37bc9cd4c6d501e987fa8731ab6f8c43&

冷月清谈：

文章介绍了Chan Zuckerberg基金会提出的rbio1框架，旨在解决AI模型在实验科学中生成大量不可靠假设，导致湿实验耗时耗费的问题。传统的AI模型常因欠缺实际验证而“胡说八道”，而让科学家在实验室逐一验证又成本高昂。

rbio1的核心是“软验证”（soft verification）机制，它让AI在虚拟环境中与“数字细胞”进行交互，预先检验其假设。具体流程是：大型语言模型（LLM）提出科学假设，这些假设被输入虚拟细胞模拟器进行模拟，模拟器反馈结果，帮助AI筛选出可靠的推理。这相当于为AI配备了一台“随身实验机”，使其在真正动手实验前就能进行快速检验和修正。

通过这种方式，rbio1显著提升了AI在生物学推理任务中的表现，例如基因敲除对基因表达影响的预测。它纠正了传统LLM中常见的逻辑漏洞，使预测结果与真实生物数据更为一致，并能更准确地识别分子相互作用。研究表明，rbio1有效降低了AI的“幻觉率”，使其推理过程更贴近科学研究的“假设—实验—反馈—修正”闭环模式。

rbio1的优势不仅限于生物学领域，只要有足够精细的模拟器，其软验证思路也适用于物理、化学、材料科学等，预示着AI将成为科学家虚拟实验室中的得力助手，共同推进科学探索。

怜星夜思：

1、rbio1听起来很酷，但它依赖的“虚拟细胞模拟器”要做到多精细才能真的有效？构建这么一个能模拟真实生物反应的虚拟世界，本身就是个巨大的科研项目吧？投入产出比怎么样？
2、虽然软验证能帮AI在虚拟世界里“试错”，但毕竟不是真的实验室。大家觉得这种“虚拟预演”会不会让科学家们在新发现的直觉和真实动手能力上有所退化？或者说，我们未来该如何平衡虚拟验证和实际湿实验的关系？
3、文章说rbio1的思路可以推广到物理、材料科学这些领域。但这些领域，比如量子物理或复杂材料结构，跟生物细胞的模拟方式和挑战会很不一样吧？有没有懂行的朋友聊聊，在这些领域推行“软验证”，最大的难点会在哪？

原文内容

来源：ScienceAI

        本文约2000字，建议阅读5分钟

        AI 的嘴，终于学会了和科学的手配合。

在实验科学里，最大的痛点之一就是——实验费时又费钱。AI 模型虽然能“滔滔不绝”地输出推理和假设，但很多时候它们只是一本正经地胡说八道。

想验证对错？那你得拉着科学家在实验室里折腾大半天，成本高得吓人。有没有办法让 AI 自己先试试水，别动不动就给科学家添麻烦？有点难，但未必不行。

美国加利福尼亚的 Chan Zuckerberg 基金会提出的 rbio1 就是为了解决这个问题。它的核心思路是：在真正动手实验之前，让 AI 先在虚拟世界里和“数字细胞”对话，做一次快速检验。这就是所谓的 软验证（soft verification）。

该研究以「rbio1 - training scientific reasoning LLMs with biological world models as soft verifiers」为题，预印本发布在 biorxiv。

论文链接：https://www.biorxiv.org/content/10.1101/2025.08.18.670981v3

软验证，怎么做

生物学研究的实验代价极高：一个基因表达实验可能需要数周，一个分子动力学模拟可能需要几天甚至几周的计算资源。传统 AI 模型虽然能生成实验假设，但往往说得好听，做不出来。

rbio1 是一种生物学推理模型，使用强化学习从预训练的LLM进行后训练，以此躲避硬验证中，推理错误所导致的人力物力的浪费。rbio1 的突破在于它让语言模型（LLM）不再单打独斗，而是与虚拟细胞模拟器（Virtual Cell）形成搭档。

图 1：rbio1 概述。

在实验中，团队证明 rbio1 可以通过与模拟任务的模型交互来学习推理任务，例如预测基因敲除对细胞中其他基因差异表达的影响，其性能与针对硬实验数据训练的 rbio1 模型相当。

rbio1 的流程大致分为三步：（1）LLM 提出科学推理或假设，比如某基因调控的预期效应；（2）这些假设被送入虚拟细胞，在数字环境中模拟实验；（3）模拟器反馈结果，帮助 AI 筛选哪些推理靠谱，哪些只是空想。

换句话说，rbio1 就像是给 AI 配了一台「随身实验机」。实验虽然是虚拟的，但反馈是真实有效的，从而让模型的科学输出更稳健。而这些随身实验，预计也可以接入其他的虚拟实验模型，完成更广泛的实验适配。

关注更为硬核的结果

研究团队表示，在扰动预测设置中，他们关注的是扰动一个基因是否会显著影响细胞中的其他基因，因此会更重视 TPR（真正阳性率）而不是 TNR（真正阴性率）——因为真正阳性的情况较少但更为重要。通过软验证机制，团队得以将生物学世界的模型知识提炼到推理模型中，并在多个科学任务上与传统 LLM 做对比。

图 2：针对使用 MLP 信号进行实验和软验证训练的模型性能。

基因表达预测任务中，传统 LLM 常常出现逻辑漏洞，预测的变化趋势和真实生物数据对不上。而 rbio 借助虚拟细胞的反馈，大幅减少了这类错误，使预测曲线与实验数据更一致。结果的分析表示，使用模型预测实验数据的结果，而不是实验数据，也可以达到近似的效果，这样就绕过了需要使用后者训练的需要。

而在分子相互作用推理中，rbio 能够更准确地识别关键分子之间的作用关系。在一些复杂网络里，它不仅比单纯的 LLM 错误更少，还能生成更接近实验验证的机制性解释。更令人惊喜的是，使用生物预测模型循环训练可以改进基础推理模型，这将是一种将生物信号嵌入推理 LLMs 的有效策略。

图 3：验证器组合训练模型的性能分析。

团队进一步统计发现：在多任务综合测试里，rbio 的表现不仅在单一任务上优于 LLM，还展现了跨领域的 泛化能力。这点尤为重要，意味着软验证不是某个特定数据集的「小技巧」，而是一种普遍可迁移的科学推理框架。

另外，在可靠性测试中，研究者专门引入了一些「陷阱问题」，即常让 AI 胡乱编造答案的场景。结果表明：传统 LLM 的「幻觉率」居高不下，而 rbio 借助虚拟反馈，可以剔除掉大部分伪造推理，使最终输出的结论更符合科学逻辑。

换句话说，rbio 不只是「听上去更对」，它真的能让 AI 的推理更接近科研工作的核心模式——假设—实验—反馈—修正的闭环。

科学 AI 的好搭档

rbio 的软验证机制，让 AI 轻巧地躲开了满嘴跑火车的境地，让它学会了在实验之前先打草稿。rbio 并不会直接代替湿实验，但能帮科学家提前筛掉大量不靠谱的假设，把真正的实验资源留给更有希望的方向。

更重要的是，这一思路不仅适用于生物学。只要有足够精细的模拟器，物理、化学、材料科学都可以尝试类似的做法。未来，科学家或许不再只是单打独斗，而是和虚拟实验室里的 AI 搭档一起迭代探索。

AI 的嘴，终于学会了和科学的手配合。

编辑：文婧

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

VelvetFox904 · 2025 年9 月 14 日 07:45

我觉得不用太担心‘退化’，这就像有了计算器之后大家也不至于忘了怎么算加减乘除。AI和软验证是把我们从繁琐的重复劳动中解放出来。科学家应该把能量花在提更高质量的问题、设计更巧妙的验证方案上，而不是去重复那些已经被AI证明无效的假设。当然，保持基本的实验素养是必须的，但未来可能更多的是‘AI告诉我大概方向，我来设计关键实验去验证并深挖’。这其实是知识协同和分工的演进，就像自动驾驶没让司机消失，而是优化了驾驶体验。

BlueJay945 · 2025 年9 月 15 日 01:43

我觉得挑战是肯定的，不过也特别刺激！生物界好歹细胞就在那里，有‘墙’围着。但材料科学，可能要模拟晶格结构，原子间的相互作用，还有外界的温度、压力、电场磁场怎么影响……这简直就是‘造宇宙’啊！比如想设计新的催化剂，可能要模拟上万种分子排列组合和反应路径。量子物理更是玄乎，怎么把量子叠加、纠缠这些概念在模拟器里体现出来，别说AI，人都没完全搞懂。但如果能把这些模拟器也做出来，那我们发现新材料的速度，简直不敢想象，可能几天就能迭代出过去几十年才能发现的东西！

Torrent81h · 2025 年9 月 16 日 01:57

将rbio1的软验证思路推广到物理、材料科学等领域，挑战确实不小，但机遇也并存。主要难点在于这些领域‘世界模型’的构建。生物细胞虽然复杂，但在一定程度上其基本组分和相互作用规律相对明确（例如基因调控网络、蛋白质折叠）。而量子物理或复杂材料，其多体问题、强关联效应、原子级缺陷、长程相互作用等现象，在第一性原理层面建模计算量巨大且物理模型本身还在不断发展。要构建一个既能反映核心物理，又能在合理计算资源下运行的‘虚拟材料’或‘虚拟量子态’，需要顶级的计算物理、材料学和AI交叉人才深度合作。然而，一旦突破，其对新材料发现、药物设计、清洁能源等领域的推动将是革命性的。

Spark21u · 2025 年9 月 16 日 08:41

哈哈，你说得对，这不就是‘造个更小的世界’吗？听着就烧钱！感觉就像先花一个亿造个能自己进化的‘迷你地球’，然后让AI在里面玩过家家，看看啥靠谱。要是模拟器不准，AI学了一堆‘假知识’，那不是更扯淡了？不如先让AI在《模拟人生》里研究一下细胞代谢？开玩笑啦！不过我觉得，哪怕模拟器有点粗糙，能把最离谱的假设筛掉就已经立大功了，至少省了好多‘白忙活’的钱！

StarryUnicorn587 · 2025 年9 月 17 日 05:13

我觉得这里说的精细度不一定非要达到‘完美复刻’的程度，更重要的是‘足够反映关键机制’。AI的目的不是完全取代科学家，而是提高假设的质量。所以，模拟器可能只需要抓住核心的、易变异的生物路径就行。就像游戏引擎，它不是真实世界，但能模拟出足够真实的体验。投入产出比嘛，我觉得初期投入肯定大，但如果能把现在试验室动不动几个月、几十万的项目变成AI几小时虚拟搞定，那回报简直是指数级的。就像现在的芯片设计，没有模拟器根本玩不转。

Whisper28f · 2025 年9 月 18 日 06:48

关于rbio1所依赖的虚拟细胞模拟器，其有效性确实与精细度高度相关。从理论角度看，达到‘真实’模拟需要多尺度（从分子到细胞器再到整个细胞网络）建模和高精度参数。目前，像OpenCell这样的项目就是在做这方面的工作。构建成本无疑巨大，涉及高性能计算、多学科专家协作以及海量实验数据支撑。然而，长远来看，如果能大幅减少耗资巨大的湿实验，这种前端投入是非常值得的，因为它能加速科学发现，避免重复性错误，最终提高整体科研效率。可以类比航天领域的仿真测试，前期投入巨大，但节省了无数次实际发射的风险和成本。

Solace15k · 2025 年9 月 19 日 00:18

确实不一样，而且复杂度可能更高。生物细胞至少还有个‘边界’，有明确的输入输出和相对封闭的系统。但材料科学可能涉及宏观、微观的串联，比如一个金属疲劳，既有原子层面缺陷的萌生，又有晶粒尺度的裂纹扩展，还有结构件整体的应力分布。物理领域更是，很多基本规律还没完全吃透，模拟器能‘模拟’到什么程度才叫‘软验证’有效？有时候，我们连什么是‘真实’都还没完全搞明白。所以，初期可能还是从一些相对简单的、边界清晰的子问题开始，比如模拟特定化合物的反应活性，而不是直接去模拟一个核聚变反应堆。