AlphaGenome 破解基因暗物质,AI 揭示生命调控新篇章

谷歌AlphaGenome破解98%基因非编码区,精准预测基因突变影响,为理解生命“逻辑”提供新视角。

原文标题:刷屏 Nature!人类终于读懂 98% 的基因暗物质

原文作者:数据派THU

冷月清谈:

谷歌DeepMind的AlphaGenome模型登上Nature封面,成功破解了基因组中98%的非编码区域(被称为“基因暗物质”),并能够精准预测基因突变对分子功能的影响。这一突破被誉为“基因组版AlphaGo”,通过读取DNA序列,提取调控基序与表征活性,对数千种分子特性进行高精度预测。AlphaGenome不仅能一次性处理100万个DNA碱基对,还能同时完成基因表达、剪接、染色质状态和蛋白质结合等复杂生物过程的预测,在多个基准测试中表现出色。该模型在预测突变如何影响基因活性、识别破坏“剪接”的突变以及预判DNA“封装”变化等方面均超越现有工具。AlphaGenome还在癌症突变预测的“实战”中展现了精准性。研究团队表示,AlphaGenome致力于预测遗传变异的功能影响,填补了罕见遗传病诊断的空白,并让非编码区的功能影响能够被系统地预测。AlphaGenome的出现标志着人类对生命“逻辑”的理解更进一步。

怜星夜思:

1、AlphaGenome主要破解的是基因组中98%的非编码区,这些区域被称为“基因暗物质”,既然被称为暗物质,是否意味着我们对这些区域的功能还知之甚少?AlphaGenome的出现能彻底揭开这些区域的神秘面纱吗?
2、AlphaGenome在癌症突变预测中表现出色,成功预测了T细胞白血病中一个危险基因的激活路径。那么,这项技术在癌症治疗方面有哪些潜在应用?除了预测突变,它还能在哪些方面帮助我们对抗癌症?
3、AlphaGenome被称为“基因组版AlphaGo”,你觉得这个比喻恰当吗?AI在生命科学领域的应用,除了AlphaFold和AlphaGenome,未来还会有哪些突破性的发展方向?

原文内容

图片
来源:新智元
本文约2600字,建议阅读5分钟
本文介绍了谷歌 AlphaGenome 登 Nature 封面,破解 98% 基因非编码区并精准预测基因突变影响。


[ 导读 ]生命,是一场长达40亿年代码迭代。现在,AlphaGenome破解98%基因暗物质,开启了人类「删除」疾病代码的上帝模式。


谷歌AlphaGenome登上了Nature封面!


去年5月,谷歌DeepMind重磅发布了新一代「阿尔法」模型——AlphaGenome。


它可一次性「读入」100万个DNA碱基对,并预测任何基因突变如何改变分子的功能。


AlphaGenome不仅限于单个基因预测,而是贯穿了整个调控基因组。


论文地址:https://www.nature.com/nature/volumes/649/issues/8099


若要回答「某个基因的活性是会增强还是减弱」这一问题,生物学家们需要在实验室中,往往耗费数月进行重复实验。


如今,AlphaGenome只需读入一段DNA序列,提取调控基序与表征活性,便可对数千种分子特性高度预测。


谷歌科学家表示,这类非编码基因组占DNA 98%,对人类健康和疾病至关重要。


AlphaGenome已在GitHub开源:https://github.com/google-deepmind/alphagenome_research


诺奖得主、DeepMind掌门人Demis Hassabis更是放出豪言:「未来十年,AI将治愈所有疾病」。


AlphaGenome的横空出世,堪称「基因组版AlphaGo」,正以颠覆性计算范式重构生命科学的底层逻辑。


评论区下方,网友激动表示,「自然遗留的代码」终于有了合适的代码检查工具。



AlphaGenome荣登Nature封面


基因组,是深植于每个细胞核心的生命底层代码。


这套宏大的DNA指令集,不仅精准勾勒出我们的外貌与机能,更在幕后操控着生长、繁衍乃至抵御疾病的每一处细节。


2003年,人类基因组计划宣告完成,我们首次窥见了这本「生命之书」的全貌。


图片


然而,那些深藏在双螺旋间的遗传密码始终未被唤醒:


一个碱基的微小错位如何引发生命的巨震,依旧是生命科学研究的核心议题。


6年前,AlphaFold的诞生以海啸般的势头席卷生物界,连续斩获Nature、Science年度十大科学突破。


从初代AlphaFold到AlphaFold 3,精准预测了98.5%人类蛋白质结构。


它更用2024年的诺贝尔奖证明了,AI正在接管生物学的未来。



最新AlphaGenome,再一次拓展了AI在DNA领域的研究。


人类基因约有30亿个碱基,但其中只有不到2%的序列,用于编码蛋白质,其余98%被称为非编码区。


然而,它们对调控基因的活性至关重要,并包含了大量与疾病相关的变异位点。



直到现在,生物学家实际上无法看清它是如何运作的。


AlphaGenome正是为解读这些广阔的非编码序列及其内部变异,提供了全新的视角。


一次100万对,90%精准预测


从论文角度,一起拆解下AlphaGenome背后工作原理。



总言之,AlphaFold解决了蛋白质折叠问题,AlphaGenome则研究接下来的问题——


DNA实际上是如何控制基因的?


当前,问题的核心是:98%的人类基因突变其实发生在基因之外,也就是那些负责调控基因在何时、何地、以及表达多少的「调控区」。


科学家们很清楚,这些区域至关重要。


可问题是,想要预测这些区域里的某个特定突变到底会起什么作用,难度可就直接翻倍了。


图片

为什么会如此困难?


因为某个位置的一个小突变,可能会影响到远在50万个「字母」(letters)之外的基因。


以前的AI工具不得不做「单选题」:要么看得远,但视野模糊;要么看得清,但只能盯着附近那一小部分地方。



也就是说,鱼和熊掌,过去的AI还没法兼得。还有一个问题是,目前的工具都是「专才」。


想知道突变是否影响基因表达?用一个模型剪接(Splicing),用另一个染色质(Chromatin),再换一个.....


但基因突变并不只影响单一环节,生物学是环环相扣的。


基于谷歌之前的Enformer模型,AlphaGenome这次一口气解决了上述两个痛点:


  1. 既能「望远」也能「微距」:它能一次性吞掉100万个DNA字母,而且预测精度依然能细化到每一个字母。

  2. 从「偏科生」变成「全才」:基因表达、剪接、染色质状态、蛋白质结合——这些复杂的生物过程,现在只需这一个模型就能同时搞定。



战果一:更擅长预测突变如何影响基因活性


在90%的准确率下,之前的最佳模型发现了19%已知变异位点,AlphaGenome直接找出了41%,性能足足提升一倍多。


战果二:精准识别破坏「剪接」的突变


所谓的「剪接」(Splicing),其实就是细胞在给基因片段搞「剪剪贴贴」,最后拼成一份能指导生命活动的最终指令。


如果这一步搞错了,拼出来的蛋白质就是个「报废品」。别小看这些错误,它们导致了大约15%遗传病。


而在这一领域的七项权威基准测试中,AlphaGenome在其中6项都拿到了第一,完全碾压了现有的工具。



战果三:更精准地预判DNA的「封装」变化(染色质)


DNA紧紧地缠绕在蛋白质周围,松开它,基因就能开启。收紧它,基因就保持关闭。


在预测突变何时改变这一过程方面,AlphaGenome的表现优于专业工具。



战果四:在「实战」中精准预判癌症突变


为了验证真本事,研发团队拿真实的癌症突变给AlphaGenome来了场「实战演习」。


在T细胞白血病中,某些特定的突变会像合上电闸一样,意外激活一个极其危险的基因——TAL1。


AlphaGenome不仅准确预测出了这种激活的具体路径,而且其预测结果与科学家在实验室里忙活多年才得出的结论完全吻合。



和去年五月论文不同之处,研究科学家给出了以下两点:



有网友对此表示,AlphaGenome的出现让科学家们离读懂人类基因组又近了一步。



破译「生命源代码」,2年搞定


谷歌DeepMind还出了一期AlphaGenome的访谈,科学家Žiga Avsec和背后团队坐在一起,阐述了新模型背后的故事。



团队打造一款统一的DNA序列-功能预测模型,其初衷便是预测遗传变异的功能影响。


他们希望,AI可以最终译被称为「生命源代码」的DNA序列,这对人类健康和罕见病诊断具有重要意义。


AlphaGenome的出世恰恰填补了这一空白。



AI 要做的事情之一,是把序列变化与细胞里的分子机制变化连接起来,尤其要回答「一个小小的变异会带来什么后果」。


这背后有一个长期痛点:大量罕见遗传病患者仍旧没有明确诊断线索,研究和临床经常卡在「看见变异、读不懂影响」。


同时,人类基因组里编码蛋白的区域只占很小部分,更多变异发生在非编码区。


AlphaGenome把关注点放在这片「基因组的绝大部分」,试图让非编码区的功能影响也能被系统地预测。


图片

那么,为什么要做一个统一的「序列-功能」(sequence-to-function)的模型?


访谈中,他们提到过往路线:此前有Enformer,行业里也出现了不少同类工作,还有大量针对单任务的模型,分别解决剪接、可及性、3D互作等问题。


而AlphaGenome试图解决的是「拼模型」的成本与缺口:

  • 需要覆盖更多模态(更多类型的生物学读数)

  • 输入序列要足够长,能看到远距离调控

  • 输出要足够细,能落到单碱基层级解释


它把这几件事放进一个框架里,让研究者不用在不同模型之间来回切换,也更容易把变异影响放到更完整的上下文里理解。


更关键的是,AlphaGenome从午餐灵感到论文发布,周期不到两年。



从AlphaFold揭示生命的「形态」,到AlphaGenome破译生命的「逻辑」,我们正身处一场前所未有的范式转移之中。


AlphaGenome把曾经一度被视为「暗物质」的98%非编码区,变成了生命最精密的调控阀门。


这一次,人类不仅是在观察生命,更是在理解生命的运行代码。


参考资料:

https://x.com/GoogleDeepMind/status/2016542480955535475 

https://www.nature.com/nature/volumes/649/issues/8099  

https://deepmind.google/blog/alphagenome-ai-for-better-understanding-the-genome/  

https://x.com/DrDominicNg/status/2016626988031889836?s=20


编辑:于腾凯

校对:杨学俊



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

AI 的潜力是巨大的,但也要警惕潜在的风险。比如,AI 生成的数据是否可靠?AI 的决策是否公平?这些都是需要认真思考的问题。生命科学是一个复杂的领域,不能完全依赖 AI,还需要保持怀疑精神和批判性思维。

我觉得 Hassabis 的说法有点过于乐观了,但 AI 在医疗领域的潜力是毋庸置疑的。要实现“治愈所有疾病”的目标,我们需要克服数据质量、算法可解释性、伦理监管等多方面的挑战。例如,我们需要更多高质量的医疗数据来训练 AI 模型,同时也要保证数据的隐私和安全。

技术上的挑战也很多,比如AI模型需要不断进化,以适应新的疾病和治疗方法。还有,我们需要开发更智能的机器人,辅助医生进行手术和护理。总而言之,AI 治愈所有疾病是一个长期的愿景,需要科学家、医生、政策制定者等多方共同努力。

问题:文章提到AlphaGenome能更精准地预判DNA的“封装”变化(染色质),这对于理解基因的开关状态至关重要。那么,你觉得未来我们是否有可能通过人为干预染色质状态,来调控基因表达,从而治疗疾病?这种思路有哪些潜在的伦理风险?

我觉得这种技术如果真的发展起来,最大的伦理问题可能在于“阶级固化”。想象一下,如果富人可以通过基因编辑让后代拥有更高的智商、更强的体魄,而穷人却无力承担,那么社会差距岂不是会越来越大?这可比拼爹妈还可怕!

AlphaGenome 能够兼顾“望远”和“微距”,这背后肯定有巧妙的设计。我猜想,它可能采用了某种分层处理的策略,先用粗粒度的模型快速筛选出关键区域,再用细粒度的模型进行精确分析。这种思路有点像图像处理中的金字塔模型,通过不同尺度的信息融合,实现全局和局部特征的有效提取。当然,要实现这样的效果,肯定需要大量的计算资源和精巧的算法优化,才能保证效率和精度。

这种“全能”模型的优势在于它能提供对基因调控更全面的理解。单一任务的模型可能只关注剪接或染色质状态,但实际上这些过程是相互关联的。AlphaGenome 能够同时考虑这些因素,预测精度更高。未来肯定会是趋势,生物系统本来就很复杂,割裂地研究肯定不如整体把握。

谢邀,人在实验室,刚做完 PCR。我觉得这种“全能”模型避免了各自为战,能更好地模拟生物体内的复杂环境。你想啊,细胞里的各种活动都是相互影响的,单独研究某个环节可能会忽略很多重要的信息。就好像中医看病,讲究整体调理,而不是头痛医头脚痛医脚。当然,这种模型的开发难度也更高,需要强大的计算能力和对生物学机制的深刻理解。不过,只要能提高效率,减少试错成本,多花点功夫也是值得的。

这就好比以前拿着放大镜看地图,现在直接用卫星地图鸟瞰全局。很多基因的调控不是靠“邻居”,而是靠远方的“亲戚”。只有看得足够远,才能发现这些调控关系,理解基因组的复杂网络。这对于理解表观遗传、基因组三维结构等高级调控机制至关重要。

其实我觉得这个思路也没啥特别的,很多模型都用过类似的方法。关键还是看具体实现的效果。如果 AlphaGenome 的效果真的那么好,那肯定是在细节上做了很多优化。比如说,损失函数的设计、训练数据的选择等等。这些细节才是决定模型性能的关键。所以,光有思路还不够,还得有扎实的技术功底才行。

我觉得这个目标既现实又不现实。说它现实,是因为 AI 在某些疾病的诊断和治疗方面已经取得了显著进展。说它不现实,是因为很多疾病的病因并不明确,而且还涉及到复杂的社会因素。AlphaGenome 的出现,无疑让这个目标更近了一步,但同时也提醒我们,AI 不是万能的,还需要结合传统医学的手段,才能真正实现治愈疾病的目标。

十年治愈所有疾病?我赌一根辣条,不可能!医学发展是循序渐进的,不是靠一个 AI 模型就能一蹴而就的。DeepMind 这波操作,明显是想蹭热度,顺便给自己打广告。不过,我还是希望 AI 能在医疗领域发挥更大的作用,至少能让医生少加点班。(手动滑稽)

从学术角度看,AlphaGenome 确实为药物研发提供了新的可能性。通过对非编码区突变影响的预测,可以更深入地了解疾病的发生机制,从而为药物设计提供更精确的靶点。然而,从实验室到实际应用还有很长的路要走,需要大量的实验验证和临床试验。而且伦理问题也值得关注,例如基因编辑,需要谨慎考量。

癌症治疗就像打地鼠,摁下这个,那个又冒出来了。AlphaGenome 的出现,就像给我们装了个透视眼,能看到哪些“地鼠”最危险,提前预判它们的行动。除了癌症,像老年痴呆、糖尿病这些跟基因调控密切相关的疾病,都有可能借助 AlphaGenome 找到新的治疗思路。未来,我们甚至可以预测个体对药物的反应,实现真正的精准医疗!

非编码区虽然不直接编码蛋白质,但它们调控基因的表达,影响何时、何地以及表达多少。理解这些区域的功能对于理解基因调控网络至关重要。未来的医疗中,我们可以通过靶向非编码区的调控元件来精准调控基因表达,治疗疾病,比如针对特定癌症的精准治疗。

用大白话说,以前的AI就像一个只能记住几句话的小学生,而且只会做算术题。AlphaGenome 就像一个记忆力超群的博士,不仅能记住100万个字,还能同时搞懂生物、化学、物理!这种突破说明,AI以后会越来越像一个通才,而不是只在一个领域里打转转。

“治愈所有疾病”过于理想化,疾病的复杂性远超我们的想象。但AI在药物研发、疾病诊断和个性化治疗方面潜力巨大,AlphaGenome 可以通过预测基因突变的影响,帮助我们找到疾病的根源,从而开发出更有效的治疗方法。这是一个长期而艰巨的任务,但AI正在加速这个过程。

之前人们总是觉得,既然蛋白质是生命的基础,那编码蛋白质的区域肯定是最重要的。但实际上,非编码区就像一个精密的遥控器,控制着蛋白质的生产和运作。如果遥控器坏了,生产出来的蛋白质再好也没用。现在 AlphaGenome 就像一个强大的解码器,帮助我们理解这个遥控器的工作原理!

我觉得 Demis Hassabis 的话可以理解为一种愿景,激励大家努力奋斗。 AI 目前面临的挑战主要有数据质量、算法可靠性、伦理问题等等。 如何确保 AI 的预测结果是准确可靠的,如何保护患者的隐私数据,以及如何避免 AI 带来的偏见和歧视,这些都是我们需要认真思考的问题。

楼上说的很对!我再补充一点,非编码区包含了大量的调控元件,它们负责和各种转录因子、RNA等分子结合,从而影响基因的表达。就像一个复杂的电路,非编码区控制着基因的开关。很多疾病,包括癌症,都与这些“开关”的失调有关。所以,破解非编码区,就等于打开了疾病治疗的新大门。