AlphaFold3发布引发的代码开源讨论:回顾与展望

AlphaFold3发布引发代码开源大讨论。《自然》期刊积极推动科研代码开放共享,代码开源对科研进步具有重要意义。

原文标题:原创|自然期刊代码开源的科普解析:从AlphaFold3发布争议说起

原文作者:数据派THU

冷月清谈:

谷歌DeepMind发布的AlphaFold3因未及时开源代码引发科学界广泛争议,凸显了代码开源在科研领域的重要性。《自然》期刊一直致力于推动代码开源,要求作者提供完整代码和数据以供审核,并与开源平台合作,鼓励科研人员共享代码。代码开源能够提高科研透明度、促进知识共享、增强科研合作以及推动科研创新。尽管面临知识产权、技术保密和审核成本等挑战,但代码开源对于科学进步具有不可替代的意义。文章回顾了AlphaFold3开源事件,探讨了代码开源的重要性,并展望了未来科研成果共享的前景。

怜星夜思:

1、AlphaFold3的开源对于国内的生物医药研究有哪些潜在的影响?我们应该如何抓住这次机会?
2、《自然》期刊要求代码开源,这在实际操作中会遇到哪些阻力?如何平衡科研成果的共享和保护?
3、除了《自然》期刊,还有哪些机构或平台在积极推动科研领域的代码开源?他们有哪些值得借鉴的经验?

原文内容

作者:李媛媛
本文约3000字,建议阅读6分钟

本文将从AlphaFold3发布的争议出发,初步探讨自然期刊代码开源及其重要意义。

2024年,谷歌DeepMind公司发布的AlphaFold3,这一最新的人工智能(AI)蛋白质结构预测工具,在科学界掀起了轩然大波。而这场争议,不仅涉及AlphaFold3本身的技术特性和应用前景,更触及了科学研究中关于代码开源的深刻议题。本文将从AlphaFold3发布的争议出发,初步探讨自然期刊代码开源及其重要意义。


一、AlphaFold3的发布与争议


AlphaFold3是DeepMind公司研发的最新AI蛋白质结构预测工具,其能够精准预测蛋白质的结构,并模拟蛋白质与其他分子(如DNA、RNA等)的相互作用。这一技术突破对于药物发现、疾病治疗等领域具有重大意义。然而,当DeepMind首次在《自然》期刊上发布AlphaFold3的相关信息时,却并未公开其底层代码和模型训练权重,这一做法引发了科学界的强烈批评。


科学家们认为,不公开底层代码和模型权重严重损害了科学研究的可重复性和开放性。他们指出,如果无法获取完整的代码和权重,其他科研人员将难以对AlphaFold3的研究结果进行验证和进一步拓展。此外,这种做法也与《自然》期刊的编辑指南相悖,该指南规定计算代码必须与发表的研究一起提供。


面对科学界的批评,DeepMind公司迅速调整策略,承诺在半年内将AlphaFold3作为开源版本发布。然而,这半年的等待时间对于急切的研究社区来说,无疑是一种煎熬。他们担心这会影响AlphaFold3的广泛应用和深入研究。


AlphaFold3开源时间线

时间

开源资讯

2024年5月8日


1) 谷歌DeepMind与Isomorphic Labs联合在《自然》期刊上发布了蛋白质领域最新人工智能模型AlphaFold 3。这一版本不仅扩大了预测范围,还创新性地用上了扩散模型,可以生成每个原子的3D坐标。

2) 在发布时,AlphaFold 3并未立即开源,而是通过网络服务器提供访问权限,这引起了部分科学家的批评。

2024年5月至10月期间


1) 科学家和研究者对AlphaFold 3的开源表示期待,并对DeepMind未立即开源表示不满。一些科学家在公开信中表达了这一观点,并获得了数百个签名。

2) 谷歌DeepMind在受到批评后,承诺在论文发表后的6个月内发布完整的代码供非商业用途使用。

3) 在此期间,已有几家公司根据AlphaFold 3的原始论文中的伪代码推出了受AlphaFold 3启发的开源蛋白质结构预测模型,如中国的百度和字节跳动,以及美国的初创公司Chai Discovery。

2024年10月9日


1) 瑞典皇家科学院决定将2024年诺贝尔化学奖的一半授予大卫·贝克(David Baker),以表彰他在“计算蛋白质设计”方面的贡献,并将另一半授予戴密斯·哈萨比斯(Demis Hassabis)和约翰·M·詹伯(John M. Jumper),以表彰他们在“蛋白质结构预测”方面的贡献。

2024年11月11日


1) DeepMind兑现了承诺,正式将AlphaFold 3开源。科研人员可以在GitHub上访问并下载AlphaFold 3的源代码,并将其用于非商业用途。

2) AlphaFold 3的开源获得了科学界的热烈反响和高度评价,《自然》和《Science》杂志也对此进行了推荐。

2024年11月12日


1) 多家媒体对AlphaFold 3的开源进行了报道,详细描述了开源的背景、意义和影响。

2) 科学家们对AlphaFold 3的开源表示期待,并计划利用这一工具开展更多深入的研究。

2024年11月之后


1) 随着AlphaFold 3的正式开源,研究者们将能更方便、更高效地利用这一模型开展各类基础研究、临床研究以及生物医药开发。

2) AlphaFold 3的开源将促进生命科学与人工智能的深度融合,为生命科学领域的研究提供更多的创新思路和方法。

3) 其他研究团队计划将AlphaFold 3的代码集成到他们的软件中,以提高预测效率和准确性。例如,MassiveFold团队希望将AlphaFold 3集成到其软件中,帮助用户利用并行计算减少运行时间。


二、自然期刊的代码开源


在这场争议中,自然期刊的代码开源问题成为了焦点。作为国际顶尖的学术期刊之一,《自然》期刊一直秉持着开放共享的理念,致力于推动科学研究的透明度和可重复性。因此,在AlphaFold3的争议中,《自然》期刊的态度和行动显得尤为重要。


事实上,自然期刊在推动代码开源方面一直走在前列。它要求作者在投稿时提供完整的代码和数据,以供审稿人审核和同行评议。这一做法确保了科研成果的准确性和可靠性,同时也推动了源代码的开源共享。


在AlphaFold3的争议中,自然期刊也发挥了积极的作用。它一方面对DeepMind公司的做法提出了质疑和批评,另一方面也积极推动DeepMind公司履行承诺,尽快将AlphaFold3的底层代码和模型权重开源。


在推动源代码开源方面,《自然》期刊采取了多种实践措施。


明确要求:在投稿指南中,《自然》期刊明确要求涉及复杂计算模型和数据分析方法的科研成果,必须提供源代码以供审稿人审核。这一要求确保了科研成果的透明度和可重复性,也推动了源代码的开源共享。


审稿人审核:在审稿过程中,《自然》期刊会邀请相关领域的专家作为审稿人,对科研成果进行严格的审核。其中,源代码的审核是重要的一环。审稿人会仔细审查源代码的准确性和可靠性,以确保科研成果的准确性和可信度。


开源平台:为了方便科研人员共享源代码,《自然》期刊与多个开源平台合作,为科研人员提供便捷的源代码共享渠道。这些平台包括GitHub、GitLab等,都是国际知名的开源代码托管平台,拥有庞大的用户群体和丰富的开源资源。


案例示范:为了鼓励更多的科研人员参与源代码开源,《自然》期刊还积极发布源代码开源的成功案例。这些案例展示了源代码开源在推动科学研究进步、促进知识共享方面的积极作用,为其他科研人员提供了有益的借鉴和参考。


尽管《自然》期刊在推动源代码开源方面取得了显著成效,但仍面临一些挑战。


知识产权问题:源代码的开源可能涉及知识产权问题。部分科研人员可能担心源代码的开源会侵犯其知识产权或泄露商业机密。为了应对这一问题,《自然》期刊可以加强与知识产权机构的合作,为科研人员提供知识产权保护和法律咨询等服务。


技术保密问题:部分科研成果可能涉及敏感技术或核心算法,科研人员可能不愿意将其源代码开源。为了平衡技术保密和科研共享的需求,《自然》期刊可以建立灵活的源代码共享机制,如部分开源、延迟开源等,以满足不同科研人员的需求。


审核成本问题:源代码的审核需要耗费大量的时间和精力,这增加了审稿人的工作负担和期刊的运营成本。为了降低审核成本,《自然》期刊可以引入自动化审核工具和技术,提高审核效率和准确性。


三、代码开源的重要性与意义


代码开源对于科学研究的重要性不言而喻。它不仅能够提高科研的透明度和可重复性,还能够促进知识的共享和创新。具体来说,代码开源具有以下重要意义:


提高科研透明度:代码开源使得科研成果的算法和计算过程得以公开,从而提高了科研的透明度。这有助于科研人员更加清晰地了解科研成果的实现过程和细节,增强了科研成果的可信度和说服力。


促进知识共享:代码开源使得科研成果得以更加广泛地传播和共享。其他科研人员可以在此基础上进行二次开发和创新,推动科学研究的不断进步。这有助于形成良性循环,促进科学知识的不断积累和更新。


增强科研合作:代码开源有助于加强科研人员之间的合作与交流。科研人员可以通过共享代码,共同解决科学难题,推动科研项目的顺利开展。这有助于形成更加紧密的科研合作网络,提高科研效率和质量。


推动科研创新:代码开源为科研人员提供了更多的创新机会和灵感。科研人员可以在现有代码的基础上进行改进和优化,开发出更加先进和高效的计算模型和数据分析方法。这有助于推动科研创新的不断深入和发展。


四、结语


AlphaFold3的发布争议虽然给科学界带来了一定的困扰和挑战,但也引发了人们对于代码开源的深刻思考和讨论。自然期刊作为国际顶尖的学术期刊之一,在推动代码开源方面发挥了积极的作用。它要求作者提供完整的代码和数据,以确保科研成果的准确性和可靠性;同时,它也积极推动科研人员之间的合作与交流,促进知识的共享和创新。


在未来,我们期待更多的科研成果能够基于开源理念,共享科研成果。这不仅有助于提高科研的透明度和可重复性,还能够共同推动科学研究的不断进步和创新发展,为科学研究的进步和发展贡献更多的智慧和力量。


编辑:于腾凯
校对:丁玺茗

作者简介

李媛媛,毕业于武汉大学信息管理学院,信息资源管理专业,学术硕士,现任之江实验室全栈研发工程师。

数据派研究部介绍




数据派研究部成立于2017年初,以兴趣为核心划分多个组别,各组既遵循研究部整体的知识分享实践项目规划,又各具特色:


算法模型组:积极组队参加kaggle等比赛,原创手把手教系列文章;

调研分析组:通过专访等方式调研大数据的应用,探索数据产品之美;

系统平台组:追踪大数据&人工智能系统平台技术前沿,对话专家;

自然语言处理组:重于实践,积极参加比赛及策划各类文本分析项目;

制造业大数据组:秉工业强国之梦,产学研政结合,挖掘数据价值;

数据可视化组:将信息与艺术融合,探索数据之美,学用可视化讲故事;

网络爬虫组:爬取网络信息,配合其他各组开发创意项目。


点击文末“阅读原文”,报名数据派研究部志愿者,总有一组适合你~



转载须知


如需转载,请在开篇显著位置注明作者和出处(转自:数据派THUID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

未经许可的转载以及改编者,我们将依法追究其法律责任。




关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

点击“阅读原文”拥抱组织

说到代码开源,那可就太多了。除了《自然》这种“官方”机构,其实很多民间的力量也在推动。比如,GitHub就是个典型的例子,简直是程序员的“乌托邦”,啥代码都能找到。还有一些开源社区,像Apache、Linux Foundation,他们自己就维护了很多大型的开源项目,影响力杠杠的。

要说经验,我觉得最重要的一点是“社区氛围”。一个好的开源项目,背后肯定有一个活跃的社区。大家一起贡献代码、一起讨论问题,才能让项目越来越好。另外,文档也很重要!很多开源项目代码写得很好,但是文档一塌糊涂,让人根本不知道怎么用。所以,好的文档是开源项目成功的关键。

针对AlphaFold3的开源对于国内生物医药研究的影响:

1. 降低研发门槛:开源降低了使用先进蛋白质结构预测工具的门槛,使得国内更多研究机构和企业能够利用这一工具进行药物研发、疾病机制研究等,加速科研进程。
2. 促进合作创新:开源促进国内外研究者之间的交流与合作,可以共同开发新的算法、优化模型,推动生物医药领域的创新发展。
3. 加速产业升级:通过AlphaFold3的应用,国内生物医药产业有望在药物设计、筛选等方面实现技术升级,提高研发效率和成功率。

抓住机会的建议:

1. 加强人才培养:积极培养和引进具备AI和生物医药交叉背景的人才,以便更好地应用和优化AlphaFold3。
2. 建立合作平台:搭建国内外合作平台,促进学术界和产业界之间的交流,共同解决生物医药领域的难题。
3. 加大研发投入:加大对生物医药基础研究的投入,为AlphaFold3的应用提供更坚实的理论基础和数据支持。

《自然》期刊的想法是好的,但是实行起来肯定会遇到各种各样的问题。一方面,有些研究者可能觉得自己的代码是“祖传秘方”,不愿意公开;另一方面,有些代码可能写得比较“奔放”,自己都看不懂,更别说给别人用了。更现实的问题是,开源了之后,万一被别人拿去申请了专利,那岂不是亏大了?

所以,我觉得要平衡共享和保护,可以试试“有条件开源”。比如,只允许学术用途,禁止商业用途;或者,延迟一段时间再开源,给研究者留出申请专利的时间。当然,最关键的还是提高大家的版权意识,让大家都认识到,尊重知识产权才是王道。

除了《自然》期刊,以下机构和平台也在积极推动科研领域的代码开源,并积累了丰富的经验:

1. GitHub:作为全球最大的代码托管平台,GitHub为科研人员提供了便捷的代码共享和协作环境。其经验包括:

- 开放平台:允许任何人免费创建公共仓库,促进代码的广泛传播。
- 版本控制:提供强大的版本控制功能,方便科研人员追踪代码修改和协作。
- 社区驱动:鼓励用户参与代码贡献和讨论,形成活跃的开源社区。
2. 学术出版机构:PLOS、eLife等开放获取期刊也鼓励作者提交代码,并将其与论文一同发布。他们的经验包括:

- 强制要求:在投稿指南中明确要求作者提供代码和数据。
- 数据存储库:与Figshare、Zenodo等数据存储库合作,为科研人员提供长期稳定的数据存储服务。
- 同行评议:将代码作为同行评议的一部分,确保代码的质量和可重复性。
3. 科研资助机构:美国国家科学基金会(NSF)、欧盟委员会等科研资助机构要求受资助项目公开代码和数据。他们的经验包括:

- 政策引导:通过政策要求推动科研人员开源代码。
- 资金支持:为开源项目提供资金支持,鼓励科研人员参与开源。
- 培训推广:开展开源培训和推广活动,提高科研人员的开源意识和技能。
4. 开源软件基金会:Apache基金会、Linux基金会等开源软件基金会为科研项目提供代码托管、法律咨询等服务。他们的经验包括:

- 法律保护:为开源项目提供法律保护,防止知识产权纠纷。
- 社区支持:提供技术支持和社区推广,帮助开源项目发展壮大。
- 项目孵化:为有潜力的开源项目提供孵化服务,帮助其成长为成熟的开源项目。

嘿,这题我会!除了《自然》,搞开源的机构多了去了。首推GitHub,程序员的快乐老家。然后是各种大学实验室,比如MIT的Media Lab,UC Berkeley的AI Lab,他们很多研究成果都是开源的。还有一些非营利组织,像Mozilla,搞出了Firefox浏览器,也是开源的典范。

要说经验,我觉得最关键的是“利益驱动”。开源不能只靠情怀,得让参与者有好处。比如,GitHub上的项目,star数越多,影响力越大,作者的职业发展也越好。大学实验室开源,可以提高学校的声誉,吸引更多的优秀学生。Mozilla搞开源,可以提高Firefox的市场份额。只有让大家都觉得有利可图,开源才能持续下去。

《自然》期刊要求开源,理想很丰满,现实很骨感。阻力嘛,多了去了。最直接的就是,辛辛苦苦写的代码,一开源,别人拿去改改就说是自己的了,署名权都没了!学术圈抢发文章的现象又不是一天两天了,开源了岂不是更容易被别人抢先?还有,有些代码涉及到商业机密或者国家安全,根本不能开源。

要我说,平衡共享和保护,得靠制度。一方面,要完善知识产权保护制度,让原创者有保障;另一方面,可以考虑“分级开源”,比如核心代码不开源,只开源一些辅助性的代码。或者,可以搞一个“代码银行”,大家把代码存进去,需要用的时候可以申请,但是不能随意传播。总之,开源肯定是大势所趋,但是步子不能太大,得一步一个脚印来。

谢邀,怒答一波。AlphaFold3开源的影响绝对是深远的,对国内生物医药是弯道超车的好机会。但是!机会是留给有准备的人的。国内现在的问题是,生物信息人才缺口巨大,AI人才又不懂生物。所以当务之急是加强交叉学科建设,培养一批既懂AI又懂生物的复合型人才。光靠喊口号没用,得真金白银砸下去,支持高校和科研机构搞起来!第二个问题是数据,高质量的生物数据是AI模型的基础。国内数据开放共享程度还不够,各自为政。要打破数据壁垒,建立统一的数据平台,让大家都能用得上、用得好。只有这样,AlphaFold3才能真正发挥作用,否则就是空中楼阁。

AlphaFold3开源,简直是生物医药界的“及时雨”啊!国内研究如果能用好这把“瑞士军刀”,那绝对是事半功倍。不过,咱也得小心,别光顾着“拿来主义”,得有自己的东西才行。这就好比,人家给了你鱼竿,你总不能只会钓鱼,还得学会造鱼竿,甚至改良鱼竿!所以,我觉得国内要做的,一是赶紧组织学习班,把AlphaFold3吃透;二是鼓励大家基于AlphaFold3搞创新,别老想着复制粘贴;三是别忘了关注数据安全,毕竟生物数据也挺敏感的。

关于《自然》期刊要求代码开源遇到的阻力以及平衡科研成果的共享和保护,我的看法如下:

实际操作中的阻力:

1. 知识产权问题:科研人员担心开源代码会导致知识产权泄露,影响未来的商业化应用。
2. 技术保密问题:部分研究涉及敏感技术或核心算法,开源可能危及国家安全或企业竞争力。
3. 代码质量问题:部分科研代码质量不高,缺乏清晰的文档和注释,开源反而会降低科研成果的价值。
4. 维护成本问题:开源代码需要持续维护和更新,这对科研人员来说是一项额外负担。

平衡共享和保护的措施:

1. 明确开源协议:采用合适的开源协议,如MIT、Apache等,明确代码的使用范围和责任。
2. 延迟开源:允许科研人员在一定期限内不公开代码,以便进行商业化尝试或申请专利。
3. 部分开源:只开源部分代码,保留核心算法和技术秘密。
4. 建立代码托管平台:提供安全可靠的代码托管平台,保护科研人员的知识产权。
5. 加强知识产权保护:为科研人员提供知识产权咨询和法律服务,帮助他们更好地保护自己的权益。