谷歌Vision Transformer核心作者加入OpenAI,苏黎世或成AI研究新枢纽

ViT核心作者加入OpenAI,苏黎世或成AI研究新热点

原文标题:刚刚,三名谷歌Vision Transformer作者官宣加入OpenAI

原文作者:机器之心

冷月清谈:

三位来自谷歌DeepMind苏黎世办事处的资深研究科学家 Xiaohua Zhai(翟晓华)、Lucas Beyer 和 Alexander Kolesnikov 近期加入了 OpenAI。这三位科学家是紧密的合作伙伴,曾在谷歌共同参与了 Vision Transformer (ViT) 等重要研究,ViT 的出现极大地推动了 Transformer 架构在计算机视觉领域的应用。

加入 OpenAI 后,他们将建立 OpenAI 苏黎世办事处,并致力于多模态 AI 研究。OpenAI 的此次招募是人工智能领域人才争夺战的缩影,顶级研究人员的流动也反映了各大公司在 AI 领域竞争的激烈程度。OpenAI 近期遭遇了一些关键人物离职,此次招募可以被视为其补充和加强研究实力的重要举措。

OpenAI 正积极进行全球扩张,计划在多个城市设立新的分支机构。苏黎世作为欧洲重要的科技中心,拥有 ETH 等知名高校,已经吸引了众多科技公司在此设立研究机构。OpenAI 选择在苏黎世设立办事处,也可能与这三位科学家不愿搬迁有关。

怜星夜思:

1、OpenAI 挖来 ViT 的核心作者,对谷歌和 OpenAI 分别会产生什么影响?
2、除了 ViT,这三位科学家还有什么其他值得关注的研究成果?
3、OpenAI 选择在苏黎世设立办事处,背后有哪些战略考量?

原文内容

机器之心报道

编辑:张倩、Panda
三人是紧密的合作伙伴。


最近,OpenAI 又迎来了新的人事变动,但这次不是某个技术大牛离职,而是从谷歌挖来了一些新鲜血液。

这些「新人」来自谷歌 DeepMind 的苏黎世办事处,包括资深研究科学家 Xiaohua Zhai(翟晓华)、研究科学家 Lucas Beyer 和 Alexander Kolesnikov。在谷歌 DeepMind 工作期间,三人就是密切的合作伙伴,共同参与了 ViT 等重要研究。之后,他们将一起建立 OpenAI 苏黎世办事处。



OpenAI 高管在周二的一份内部备忘录中告诉员工,三人入职后将从事多模态 AI 研究。

在 DeepMind 工作期间,Beyer 似乎一直在密切关注 OpenAI 发布的研究成果以及该公司卷入的公共争议,他经常在 X 上向自己的 7 万多名粉丝发布相关信息。去年,当首席执行官 Sam Altman 被 OpenAI 董事会短暂解雇时,Beyer 发帖称,他目前读到的关于解雇的「最合理」解释是,Altman 同时参与了太多其他初创公司的工作。


在竞相开发最先进的人工智能模型的同时,OpenAI 及其竞争对手也在激烈竞争,从世界各地招聘有限的顶尖研究人员,通常为他们提供接近七位数或更高的年薪。对于最抢手的人才来说,在不同公司之间跳槽并不罕见。

例如,Tim Brooks 曾是 OpenAI 的 Sora 负责人,最近他离职前往 DeepMind 工作。不过,高调挖角的热潮远不止 DeepMind 和 OpenAI。今年 3 月,微软从 Inflection AI 公司挖走了其人工智能负责人 Mustafa Suleyman 以及该公司的大部分员工。而谷歌斥资 27 亿美元将 Character.AI 创始人 Noam Shazeer 拉回麾下。

在过去几个月里,OpenAI 的一些关键人物相继离职,有的加入了 DeepMind 和 Anthropic 等直接竞争对手,有的创办了自己的企业。OpenAI 联合创始人、前首席科学家 Ilya Sutskever 离职后,创办了一家专注于人工智能安全和生存风险的初创公司 Safe Superintelligence。OpenAI 前首席技术官 Mira Murati 于 9 月份宣布离职,据说她正在为一家新的人工智能企业筹集资金。

今年 10 月,OpenAI 表示正在努力向全球扩张。除了新的苏黎世办事处,该公司还计划在纽约市、西雅图、布鲁塞尔、巴黎和新加坡开设新的分支机构。除旧金山总部外,该公司已在伦敦、东京和其他城市设立了分支机构。

LinkedIn 上的资料显示,Zhai、Beyer 和 Kolesnikov 都住在苏黎世,苏黎世已成为欧洲一个相对突出的科技中心。苏黎世是 ETH (苏黎世联邦理工学院)的所在地,ETH 是一所公立研究型大学,拥有全球知名的计算机科学系。据《金融时报》今年早些时候报道,苹果公司还从谷歌挖走了一些人工智能专家,在「苏黎世的一个秘密欧洲实验室」工作。

也有人猜测,OpenAI 之所以在苏黎世设立办事处,是因为三个人都不愿意搬家。


紧密合作的三位科学家

从已发表的研究看,这三位研究者经常从事同一个项目的研究,并且他们也做出了一些非常重要的研究成果,其中一些被 AI 顶会作为 Spotlight 和 Oral 论文接收。

Xiaohua Zhai(翟晓华)


个人主页:https://sites.google.com/view/xzhai

Google DeepMind(苏黎世)的资深研究科学家和管理者。他领导着苏黎世的一个多模态研究团队,其研究重心是多模态数据、开放权重模型和包容性。

根据其领英简历,他于 2014 年在北京大学取得了计算机科学博士学位。之后曾在谷歌从事了三年软件工程师的工作。2017 年 12 月,他加入 DeepMind 担任研究科学家,并一直在此工作了 7 年。

目前,翟晓华在 Google Scholar 上的被引量已经达到了 6 万多,其中大部分被引量来自他们三人共同参与的 ViT 论文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》。


Lucas Beyer


Lucas Beyer 是 DeepMind 研究科学家。

个人博客:https://lucasb.eyer.be/

他在 2018 年于德国亚琛工业大学完成了自己的高等学业,期间曾在谷歌以实习生身份从事过研究工作,也在 Kindred.ai 担任过 AI 工程师,在德国亚琛工业大学担任过研究助理。

毕业后,他正式加入谷歌,先后在谷歌大脑与 DeepMind 从事研究工作。

他在博客中写到:「我是一名自学成才的黑客和科学家,致力于创造非凡事物。目前在瑞士苏黎世生活、工作、恋爱和玩耍。」


Alexander Kolesnikov


Alexander Kolesnikov 已经更新了自己的领英页面,他曾经也是 DeepMind 的研究科学家。

个人主页:https://kolesnikov.ch

他于 2012 年硕士毕业于莫斯科国立大学,之后在奥地利科学技术研究所取得了机器学习与计算机视觉博士学位。类似地,2018 年博士毕业后,他也先后在谷歌大脑和 DeepMind 从事研究工作。


出色的研究成果

很显然,这三位研究者是一个非常紧密的研究团队,也因此,他们的很多研究成果都是三人共同智慧的结晶(当然还有其他合作者),我们下面将其放在一起介绍。

首先必须提到的就是这篇论文:


  • 论文标题:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
  • 论文地址:https://arxiv.org/pdf/2010.11929
  • 项目地址:https://github.com/google-research/vision_transformer

这篇就是大名鼎鼎的 Vision Transformer(ViT)论文,其中提出可以使用 Transformer 来大规模地生成图像,机器之心也曾做过报道,参阅《》。目前,这篇论文的引用量已经接近 5 万,这三位研究者均是共同技术一作。


此后,他们还研究了 ViT 的 Scaling Law。


  • 论文标题:Scaling Vision Transformers
  • 论文地址:https://arxiv.org/pdf/2106.04560

通过扩大和缩小 ViT 模型和数据的规模,他们研究了错误率、数据和计算之间的关系。在此过程中,他们还对 ViT 的架构和训练进行了改进,减少了内存消耗并提高了生成模型的准确性。


另外,他们也为 ViT 开发了一些改进版本,对其性能或效率等不同方面进行了优化,比如能适应不同图块大小的 FlexiViT,参阅论文《FlexiViT: One Model for All Patch Sizes》。

他们也探索了另一些架构创新,比如他们在论文《MLP-Mixer: An all-MLP Architecture for Vision》中提出了一种用于视觉任务的纯 MLP 架构 MLP-Mixer;在论文《Big Transfer (BiT): General Visual Representation Learning》中,他们重新审视了在大型监督数据集上进行预训练并在目标任务上微调模型的范式,并通过扩大了预训练的规模提出了所谓的 Big Transfer 方案。

他们也开发了一些在当时都达到了 SOTA 的开发模型,比如 PaliGemma,这是一个基于 SigLIP-So400m 视觉编码器和 Gemma-2B 语言模型的开放式视觉语言模型 (VLM),其在同等规模下的表现非常出色。而在论文《Sigmoid Loss for Language Image Pre-Training》中,他们仅使用 4 块 TPUv4 芯片,在 2 天时间内就训练出了一个在 ImageNet 上实现了 84.5% 的零样本准确度的模型。


他们在计算机视觉方面的很多研究成果都统一在了 Google 的 Big Vision 项目中,参阅 https://github.com/google-research/big_vision

他们近期的研究重心是统一、简化和扩展多模态深度学习,比如:

  • UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes,该论文提出了一种建模多样化计算机视觉任务的统一方法。该方法通过组合使用一个基础模型和一个语言模型实现了互相增益,从而在全景分割、深度预测和图像着色上取得了不错的效果。
  • Tuning computer vision models with task rewards,这项研究展示了强化学习在多种计算机视觉任务上的有效性,为多模态模型的对齐研究做出了贡献。
  • JetFormer: An Autoregressive Generative Model of Raw Images and Text,这是上个月底才刚刚发布的新研究成果,其中提出了一种创新的端到端多模态生成模型,通过结合归一化流和自回归 Transformer,以及新的噪声课程学习方法,实现了无需预训练组件的高质量图像和文本联合生成,并取得了可与现有方法竞争的性能。

当然,这三位研究者多年的研究成果远不只这些,更多成果请访问他们各自的主页。

看来,OpenAI 这次是真挖到宝了,难怪有人说谷歌失去这三位人才会是一个战略失误。


参考链接:
https://www.wired.com/story/openai-hires-deepmind-zurich/
https://x.com/XiaohuaZhai/status/1864175652624097366

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]



OpenAI选择苏黎世,首先可能是因为这三位科学家都在那里,设立办事处可以避免他们搬家,毕竟顶尖人才不好找,能留下就尽量留下。

欧洲的政策环境和科研氛围也可能是一个考虑因素,毕竟现在全球都在抢 AI 人才,选择一个合适的落脚点也很重要。

他们做的 Big Transfer (BiT) 也很有影响力,用更大的数据集进行预训练,然后在特定任务上微调,这在当时提升了很多视觉任务的性能。

OpenAI 得到这三位人才,直接获得了 ViT 相关的技术积累,能够快速推进多模态方面的研究,比如结合 ViT 和 GPT 模型,搞搞图文生成之类的。 这对于 OpenAI 提升竞争力肯定有很大帮助,说不定过段时间就能看到新的突破。

其实吧,我觉得更重要的是人才流动带来的信息和资源的流动,这三位科学家对谷歌的了解,也能帮助 OpenAI 更好地竞争,当然啦,反过来也一样。商业竞争嘛,就是这样。

他们关于 ViT 的 Scaling Law 的研究也很重要,探讨了模型规模和数据量对 ViT 性能的影响,这对于实际应用中选择合适的模型规模很有指导意义。

苏黎世本身也是个科技中心,有 ETH 这样优秀的大学,人才储备丰富,方便 OpenAI 招募更多人才。

我觉得他们提出的 FlexiViT 也挺有意思的,可以适应不同的图块大小,感觉在实际应用中会更灵活一些。

对谷歌来说,失去这三位ViT的核心成员,无疑是损失了重要的研发力量,尤其是在ViT后续改进和多模态方向的研究上。不过,谷歌体量巨大,人才储备深厚,应该不至于伤筋动骨,但长远来看,可能会影响其在特定领域的技术领先地位。