作者自述十一年AI研究之路,分享从本科到入职英伟达的科研困惑、心态转变与职场抉择。强调保持好奇心和个人特质的重要性。
原文标题:我的AI研究这十一年:从零论文到英伟达
原文作者:数据派THU
冷月清谈:
怜星夜思:
2、作者说“学术界的奖励信号既稀疏又充满随机性”,你是如何理解这句话的?你认为可以通过哪些方式来缓解这种焦虑?
3、文章最后提到“研究的‘过程’正在被我们亲手构建的模型解决。那么,留给人类的还剩什么?”,你对这个问题有什么看法?
原文内容
来源:Datawhale本文约7000字,建议阅读19分钟本文记录了 Zhaocheng Zhu 从 2015 年开启AI科研之路到 2026 年正式入职英伟达的完整历程。文章按时间线复盘了作者从本科、博士到进入工业界的各个阶段,包括其中的科研困惑、心态转变与职场抉择。
成为一名 AI 研究者意味着什么?倘若回到初涉人工智能领域时,有人问我这个问题,我大概会描述成这样:一份追逐最前沿技术、发明酷炫模型让世界自动化、拿着丰厚薪水并赢得广泛认可的职业。然而历经十一年后,我意识到那样的愿景远不足以概括这段旅程的复杂况味。
最近,许多师弟师妹跑来问我一些似曾相识的问题:“博士生涯到底是什么样的?”“怎么才能顺利发论文?”“我该去学术界还是工业界?”看着他们的眼睛,我仿佛看到了年轻时的自己——满怀雄心壮志,却对前方的重重迷雾和应对之道一无所知。
这篇博客并不是教你如何在顶刊发文或入职名企的“成功学指南”。相反,它是我在各个阶段痛苦挣扎后的经验碎片与反思合集。这里记录了那些从未发表的论文、那些陷入自我怀疑的深夜,以及那些必须在“随大流”和“随本心”之间做出的抉择。我写下这些,是想送给十一年前的自己,也希望这些感悟能帮你拨开一点眼前的迷雾。
原文地址:https://loud-phalange-7f5.notion.site/Eleven-years-in-AI-What-does-it-actually-mean-to-be-a-researcher-2d56d9bccef780038ae9c27ffab59404
这是一篇深度长文,大约需要 19 分钟。沿途我放了一些自己拍的照片,希望能让这段讲述更鲜活、更有温度。
2015 年我刚开始本科科研时,深度学习正以摧枯拉朽之势重塑这个领域。CNN 和 RNN 让许多经典的 AI 基准测试成绩突飞猛进。那种“让机器从原始数据中自主学习决策”的震撼,远比课本上教的“手动编程控制机器”要迷人得多。很快,我就发现钻研这些技术比上课有意思多了。我花了好几个月去拆解 word2vec 的 C/C++ 实现,试图搞清楚机器在那些神奇的表征中到底学到了什么。
我人生第一个“顿悟时刻”出现在一次 RNN 实验中:我发现用拼音作为中文输入的 token,效果竟然比传统的分词还要好。这纯粹是好奇心驱动下的发现。然而,当时的我对所谓的“科研周期”毫无概念。结果,这个项目连同其他几个尝试都无疾而终,最后我的简历上只剩下几段项目描述和一篇没什么反响的 arXiv 预印本。
转机出现在日本三菱电机的暑期实习。那是我第一次走出课堂,进入真正的研究实验室。我观察到研究员有两种风格:一种擅长头脑风暴,能用绝佳的点子说服别人;另一种则在执行和实现上出类拔萃。我发现自己更倾向于前者,因为只有当我真正理解一个点子为什么有效时,我才有动力去把它做出来。这让我意识到,我可能需要一个博士学位。
但当我准备申请材料时,现实却给了我一记耳光:我的论文发表数是零。周围的同龄人大多已经有了二作甚至共同一作,而我手里只有一堆实验代码、满脑子无处安放的好奇心,以及尚未被证明的“品味”。那一刻,我觉得自己荒废了最关键的几年。
“不去日本,你很难体会到那种日式美学。你必须亲眼去看看。”
2017-2019:发表一篇论文需要什么?
意识到论文产出的匮乏后,我在本科最后一年去了 MSRA(微软亚洲研究院),想看看顶尖实验室是怎么发论文的,也想试试自己有没有机会。当时我被分配到目标检测组,那是当时最火的赛道,我第一次感受到了科研就像是一场竞技。我的队友们个个是顶级玩家,他们能每周追踪最新的 arXiv 动态,一眼识破数据中的猫腻,甚至能随口背出 ResNet 的特征图维度。
我的导师教了我至关重要的一课:工程能力是科研想法的基石。 只有当你掌控了底层实现,你才有余力去构思并实现更复杂的想法。由于 Faster R-CNN 的实现极其复杂,我被迫养成了极其严谨的工程习惯。为了在 GPU 上加速某些框架不支持的操作,我学会了手写 CUDA kernel。虽然实习结束时还是没发论文,但我感觉自己已经攒够了发一篇顶刊所需的工程底气。
我带着这些技能开始了在加拿大的博士生涯。第一个大项目是开发一个用于大规模图节点嵌入训练的多 GPU 系统。在经历了三个月与编译器漏洞和 CUDA 错误的搏斗后,我终于找到了一种方法,能将十亿级参数分散在多个 GPU 上——这本质上是数据并行与模型并行的结合。
然而,让系统跑起来只是成功了一半。到了写论文阶段,我完全不知道如何写出一篇能发表的文章,也不知道如何协作。我的导师重写了整个 Introduction,重新架构了我们的叙事。当他让我润色剩下的部分时,我误以为只是改改语法和错别字,而不是顺着新逻辑重写。在截止日期的混乱中,我甚至在没备份的情况下覆盖了他修改过的一些地方。最后我们熬了好几个通宵才把逻辑对齐,在最后一刻提交了申请。几个月后,这篇论文被 WWW 录用了。
“在蒙特利尔,路并不总是在那里的。有时你得自己踩出来。”
2019-2020:你如何在一个稀疏反馈的系统中生存?
“博士需要能够独立完成一个项目,这比你目前为止做到的都要难。”
导师在录用第一篇论文后对我说了这番话。当时我还没领会其中的分量。我以为自己已经掌握了发表论文的“公式”,独立不过是换个方式如法炮制。我错了。我即将进入一段“除非你证明自己能独自穿越迷雾,否则系统绝不给你任何反馈”的真空期。
我先是尝试从语言模型中提取知识图谱。我和合作者在春节期间手动标注评测数据。记得半夜离开实验室时,体感温度降到了零下 20 度。街上雪厚得认不出路,铲雪机推开的小径像战壕一样。虽然身体在风雪中战栗,但我的脑子里全是模型。
然而,学术系统的残酷程度不亚于气候。我们被拒了——不是因为模型有问题,而是因为我们不懂如何向社区“推销”一个新任务。随后疫情爆发,我转向药物联用研究,跑了上百个版本的生物图谱实验……结果,又是被拒。
那一刻我意识到,研究员不是机器人。即便再有天赋和动力,接二连三的拒信也会让你怀疑自己是否真的适合读博。随着世界因疫情停摆、室友搬走,我突然陷入了每天一个人工作、吃饭、生活的孤岛。我的英语开始退步,中文也是。我知道,在寂静击碎我之前,我必须做点什么。
为了生存,我开始建立自己的正向反馈循环。我花了好几个月写了一个一万多行代码的软件库。科研的奖励信号既稀疏又嘈杂,但工程开发能提供可预测的中间奖励:一个新的功能、一次更快的运行、一段优雅的重构。我还拿起了相机,开始漫无目的地走遍蒙特利尔的每个角落。在摄影中,没有“必须搞定”的压力——我只需要捕捉那些打动我的瞬间。
最意外的“自我救赎”来自我的新室友——一个乌克兰学生。对于一个只在同胞圈子里生活过的人来说,和完全不同文化背景的人同住就像是一次未知领域的探险。我们靠着破碎的英语和维基百科交流。每顿晚餐都是神秘时刻:猜他在煮什么比破译非洲餐厅的菜单还难。我在异国炖菜的味道、生活小技巧的习得,以及对一段陌生历史的了解中,找到了意想不到的快乐。这些琐碎而独特的日常互动,成了我的救命稻草。
“每张照片其实都是自画像。今天的我,再也拍不出当年的这种心境。”
2021-2023:如何找到自己的研究方向?
2021 年元旦,我飞回中国,在阔别两年半后与家人团聚。这也让我和主要的合作者回到了同一个时区。我们决定从那个失败的药物研究项目中打捞出一个未经验证的想法,起名叫“单向传播”。我们直觉上觉得它行得通,但苦于找不到理论支撑。
当全世界都在追逐最新的 arXiv 预印本时,我做了一件在导师看来有点“疯”的事:我把自己埋在厚厚的数学教材里,试图为我的假设寻找底层依据。当我终于意识到我们的传播方法等价于一类路径问题的解时——而这正是图推理必备却又是现有 GNN 无法解决的——那种感觉就像醍醐灌顶,通透无比。这种强烈的成就感驱动着我们没日没夜地完善工程实现。最终,那个瞬间变成了我的第一篇 NeurIPS 论文。
这次成功教会我:最宝贵的见解往往不来自最新的爆款,而来自经受住时间考验的基本原理。 在准备博士开题报告时,我重读了《人工智能:现代方法》(AIMA,尽管书名有“现代”,但在当下已算老牌教材)和《几何深度学习》(GDL)。AIMA 描绘了通过感知与推理实现的 AI 愿景,而 GDL 则将现代神经网络的成功归结为对称性与不变性的建模。将这些思想与我的工作并置时,一个事实清晰可见:当前的推理模型泛化能力极差。许多模型只是在背诵模式,完全不尊重逻辑的“对称性”,甚至不如几十年前 AIMA 里的经典算法。这让我觉得未来充满了无限可能。
这段时间我还遇到了博士期间最好的合作伙伴——一位博主,我最初关于图机器学习的知识就是从他的博客学的。我们问了一个简单的问题:既然经典的短路算法只要写一次就能跑在任何图上,为什么我们的神经模型每换个图就得重练一次?这种直觉促成了最早的“图基础模型”之一。那是读博期间最快乐的时光——我们不只是在刷榜,而是在尝试赋予神经网络像经典算法一样优雅的特质。
2023-2024:现实世界中,哪里才是我的归宿?
在经历了三年投实习屡投屡拒的打击后,我在读博最后一年终于拿到了 Google 的 offer。当我落地湾区,那种极度竞争的环境与加拿大宁静的学术生活形成了鲜明对比。我第一次看到工业界协作这把“双刃剑”:你可以通过杠杆化协作一夜之间扩大影响力,但如果你产出跟不上,没人会来捞你。我的导师教了我一项核心生存技能:永远带着具体的行动项离开会议。 在工业界,只有被执行的想法才有价值。
毕业临近,我站在了人生的十字路口。像大多数对科研还算满意的博士一样,我申请了教职。那段日子极其疲惫:为一百多所高校定制材料、求推荐信、反反复复打磨 Research Statement,直到我做梦都能背出来。然而,在经历了一整天筋疲力尽的教职面试后,我的热情开始退却。前辈告诉我,年轻教授往往得极力推掉教学任务,把时间都花在写基金申请上。很多讨论无关愿景,只关乎能不能拉到经费、搞到 GPU。我开始自问:这就是我梦寐以求的“自由”吗?
转战工业界的路同样坎坷。我推掉了好几个软件工程师的邀请,把筹码全部压在少数几个研究员岗位上。接着,黑暗期降临了。所有面试石沉大海,邮箱安静得可怕。我开始怀疑:只盯着研究岗位是不是错了?我听着那首《It’s Not Over Until I Win》给自己打气,但当播放器跳到《Ordinary》时,我还是没忍住情绪。那是 2024 年——裁员潮和招聘冻结的一年。当时我还没意识到,O1 签证的担保需求成了许多公司不愿跨越的隐形门槛。
终于,我收到了 NVIDIA 的几次面试机会。我知道他们愿意担保签证,于是将其视作最后的救命稻草。不久,研究员的 offer 下来了——那天正好是我 28 岁生日。20 岁时的梦想,终于照进了现实。
回望过去,这种“运气”更像是一种偶然中的必然——一段段看似零散的人生碎片,最终严丝合缝地拼在了一起。我写 CUDA kernel 是为了第一个项目的吞吐量;我开发那个软件库是为了在疫情中保持清醒,结果它竟然赢得了 NVIDIA 的奖金;我对推理的执着源于个人好奇,恰好撞上了行业对未来的迫切需求。在当时,没有一步棋是所谓的“战略布局”,但它们最终都成了通往今天的桥。
“我曾畏惧海浪,但海鸟并不。因为它们有翅膀。”
2025:在今天,做研究意味着什么?
经过漫长的签证办理,去年二月我回到湾区,开始了我作为一名 LLM post-training 领域“大厂螺丝钉”的生活。这次转变立刻揭示了学界和业界的根本不同:学术界靠影响力和筹款来探索未知,工业界则靠产品化和营收来放大已知。在这里,研究员和工程师的界限变得模糊。如果基础架构拖了研究的后腿,你就去修它;如果一个工程难题没有现成方案,它就成了研究课题。遗憾的是,我们的大学课程从未让我们为这种“全栈现实”做好准备。
AI 公司的经济逻辑也发生了剧变。以前软件公司最大的资本支出是工程师,现在变成了 GPU。当你计算顶级实验室人均每年的 GPU 成本时,往往高达数百万甚至上千万美元。这产生了一种残酷的运营逻辑:人可以睡觉,但 GPU 不能闲着。感觉我们不再仅仅是思考者,更像是在操作一台永不停歇的庞大机器。
更戏剧化的是,你为了入职而苦练的知识和技能,现在可能还抵不上 20 美元的订阅费。随着 Cursor 和 Claude Code 的普及,初级人才市场几乎一夜之间缩水。许多公司将门槛提高到了博士级别或同等经验。冷酷的现实是:有了 AI Agent 的辅助,一名资深工程师能比以前的一群初级工程师做得更快更好。我们正处在一场新的工业革命中,单纯的知识积累和技能产出正在贬值。
即便作为受过训练的研究员,我也必须面对自己专业知识的脆弱性。我曾用来证明 LLM 泛化能力薄弱的两个经典例子,不到一年就被新模型攻破了。我意识到,我所做的很多事情——头脑风暴、写代码、做分析——都是一种可验证的过程,AI 终有一天会接手。这十一年的旅程把我带到了一个奇点:研究的“过程”正在被我们亲手构建的模型解决。那么,留给人类的还剩什么?也许是设定目标的品味、感受世界的本心,以及承担责任的肩膀。
“壮丽的冻土荒原。看到这些景象给了我一种力量,那是 AI 永远无法感知的。”
结语
在这个领域待了十一年,我明白了一件事:通往研究员之路从来不是一条直线。对于曾经的我,以及此时此刻站在起跑线上的你们:前方的雾是真实的,路标的变化也比以往任何时候都要快。
但我始终相信一个普适的真理:在一场真诚的旅途中,没有真正的冤枉路。 你所经历的每一次失败,你所追随的每一点好奇心,都在构筑你最终立足的土地。
请继续前行,保持好奇。请相信,那些散落的点滴,终会在你看不见的未来连成线。
编辑:文婧






