黄仁勋GTC后发声:AI新通货是Token,决胜关键在于“每度电的智商”

黄仁勋GTC专访:AI竞赛拼的是“每度电的智商”,Token是AI新通货。英伟达目标是打造AI时代的基础设施,掌握技术栈。

原文标题:英伟达改卖Token?黄仁勋GTC后发声:token就是AI新通货,值钱的不是算力,是“每度电的智商”

原文作者:AI前线

冷月清谈:

英伟达CEO黄仁勋在GTC后接受采访,强调英伟达是一家加速计算公司,而非单纯的GPU公司。他认为AI竞赛已从算力转向产出,关键在于快速、廉价地生成高质量结果。Token成为AI时代的核心货币,其价值取决于生成模型的智能程度。英伟达通过收购Groq,推出LPU,旨在解决低延迟下更快生成token的问题。黄仁勋还指出,AI瓶颈在于电力而非芯片,未来推理将走向GPU+LPU的混合架构,竞争焦点在于技术栈的主导权。他强调加速整个软件世界的重要性,并认为Transformer架构已无法满足长记忆、物理规律等需求,下一代模型需要混合架构。此外,他提及了agent的创收能力,以及英伟达通过全栈协同设计,将“计算平台”转变为基础设施的策略,最终目标是掌握技术栈并在行业内推广。

怜星夜思:

1、黄仁勋说“AI的瓶颈在电力而非芯片”,你怎么看? 除了电力,还有哪些容易被忽略的AI发展瓶颈?
2、文章提到英伟达正在构建一套技术栈,先自己做一遍,再开放出去,让别人都在它这套体系里干活。这种模式的优势和潜在风险是什么?
3、黄仁勋认为Transformer不是终极架构,下一代模型需要混合架构。你觉得未来AI模型的发展方向会是什么? 除了混合架构,还有哪些可能的突破方向?

原文内容

作者 | 木子

“记住,英伟达是一家加速计算公司,而不是一家 GPU 公司! ”

前几天举起“token 之王”奖牌的黄仁勋,在最近的一次采访中这样强调。

在他看来,目前的 AI 竞赛,已经从拼算力变成拼产出,问题不再只是“算得有多快”,而是:能否迅速、便宜地做出高质量结果

虽然 GPU 本质也算加速计算,但显然它只加速“计算”这一环是远远不够的,现在 AI 的新挑战,早已外溢到数据搬运、内存、网络和推理流程。整条链路都必须一起提速。

这就像木桶效应,只要链路里有一环慢,最终的产出就会被卡住。

该示意图由 AI 生成

那最终的“产出”如何衡量?

一个简单直接的方式就是看 token,这个 AI 时代的“产出单位”。

黄仁勋直言道,你可以把 token 看作 AI 时代的核心货币,token 越聪明,你就能卖得越贵。

当然,这实际上并不是指 token 本身“聪明”,毕竟其本质只是文本单位,真正“聪明”的是生成这个 token 的模型。 如果一个模型用更少的 token,就能一次性给出更准确、更有用的结果,那这些 token 的“价值”就更高。

在 GTC 上新亮相的 Groq LPU,正是英伟达针对“token 产出”给出的一个解法:他们收购了这家专注超低延迟推理芯片的公司,并共同推出了新的 Groq LPU。

它并不是用来取代 GPU,而是专门解决一个问题:如何在极低延迟下,更快地产生 token。

在 GTC 演讲后,老黄接受了 Stratechery 创始人 Ben Thompson 的专访,讲清了三件更底层、更关键的事情:AI 的瓶颈在电力而非芯片,下一代推理将走向 GPU+LPU 的混合架构,而真正的竞争不在模型本身,而在技术栈的主导权。

他的核心观点整理总结如下:

  • 整个软件世界都要加速:AI 开始直接使用人类的软件工具,而这些系统必须整体加速,才能跟上 agent 的速度。低延迟决定 AI 赚钱能力。

  • 从芯片到系统再到 AI 工厂,英伟达真正的目标不是卖算力,而是构建一整套技术栈:先自己做一遍,再开放出去,让别人都在它这套体系里干活。

  • Transformer 不是终极架构:它在长记忆、物理规律和连续任务上已经不够用了,下一代模型需要混合架构。

  • 从语言到现实世界,AI 不再只是处理 token,而是要同时理解记忆、结构和连续动作。

  • 当 agent 开始直接创收时,算力不再只有一种最优解,关键是谁能把每一分电力转化成更多有价值的 token。

  • 英伟达看起来在做很多事,本质上是在不断复制同一套方法:用全栈协同设计,把“计算平台”变成绕不开的基础设施。

  • AI 推理的核心不再只是“更强”,而是在“更快(吞吐)”和“更聪明(价值)”之间做取舍。而英伟达正在用“拆分计算 + 混合架构”把这条曲线尽可能拉满

  • AI 的真正瓶颈不是某一个环节,而是“全链条同时吃紧”;而在这种稀缺时代,谁掌控技术栈、提前布局供应链,谁就更有优势。

  • 但更深层的竞争不在电力或芯片,而是谁的“一套玩法”被全行业跟着用。

以下是本次访谈的全部重点内容,AI 前线在不改变原意的前提下进行了整理编辑。

            AI时代的CUDA:       
从算力平台到“全栈世界引擎”


主持人:我记得几年前有人问过我:为什么英伟达每次在 GTC 能发这么多东西?我的理解是,本质上还是同一套 CUDA 和软件体系,只是不断针对不同行业做适配和扩展。而你今天讲的,其实也是这个逻辑。只是相比过去几次几乎全是 AI 的主题,这次更像是一次“回到起点”的梳理。所以我想问的是:为什么你现在要重新讲 CUDA 这个故事?它的意义发生了什么变化?

黄仁勋:因为我们正在进入大量“全新的行业”,而且 AI 将开始使用工具。

当 AI 使用工具时,它用的其实是我们原本为人类打造的工具:它会用 Excel、用 Photoshop、用逻辑综合工具、用 Synopsys、Cadence 的工具。

这些工具都必须被大幅加速,因为 AI 本身运行得非常快。数据库也是一样,必须被加速。

所以在这个时代,我们需要把整个世界的软件尽可能加速,然后把它们交给 AI,让 AI 以 agent 的方式去使用这些工具。

所以可以理解为,你们已经在一些行业做过这件事,现在要扩展到更多行业?

黄仁勋:对,多很多。比如数据处理。

人:这点其实有点出乎我意料。我没想到你会以和 IBM 的合作作为开场。

黄仁勋:是的,这其实能说明问题。毕竟他们当年开启了一切。


主持人:你上周(亲自发了篇长文)写到,AI 就像一个五层蛋糕:电力、芯片、基础设施、模型和应用。那么会不会有这样的担忧:外界之前越来越把你们局限在“芯片”这一层?所以现在有必要既提醒别人、也提醒你们自己,你们其实是一家纵向整合的公司而不只是做芯片的?

黄仁勋:我思考问题的方式不是从“我们不是什么”开始,而是从“我们需要成为什么”开始。

在当年,我们就意识到,加速计算是一个完整的全栈问题。你必须理解应用,才能去加速它。

我们意识到,我们必须理解应用本身,必须拥有开发者生态,还需要在算法开发方面具备非常强的能力,因为那些为 CPU 开发的旧算法,在 GPU 上表现并不好——我们必须重写这些算法、重构这些算法,让它们能够被 GPU 加速。

但一旦做到这一点,你就可以获得 50 倍、100 倍,甚至 10 倍的加速效果,因此这是完全值得的。

我认为,从一开始,我们就清楚地知道:“我们想做什么?以及实现它需要什么?”

现在,我们在建设 AI 工厂,我们在全球范围内建设 AI 基础设施。这远远不只是造芯片,当然,芯片非常重要,它是基础。

主持人:对,这就像是一个完整的全栈,包括网络、存储,现在甚至还包括 CPU。

黄仁勋:现在你必须把所有这些整合到一起,构建成这种巨大的系统,比如一个千兆瓦级的工厂,大概需要 500 亿到 600 亿美元。在这 500 亿到 600 亿美元里,大约有 150 亿到 170 亿属于基础设施:土地、电力以及厂房外壳。剩下的则是计算、网络、存储等部分。

面对这种级别的投资,如果你不能帮助客户建立起足够的信心,让他们相信自己能够成功建成这样的系统,那你根本没有机会,没有人会去冒险投入 500 亿美元。

所以我认为,这里面的核心思想是:我们不仅要帮助客户建造芯片,还要帮助他们构建系统;而在构建系统之后,不仅仅是系统,还要构建 AI 工厂。

AI 工厂内部包含大量软件。不仅仅是我们的软件,还有大量用于散热管理、电力系统、冗余设计等等的软件。

而现在很多系统其实是“过度设计”的,因为没有人彼此沟通。当很多团队彼此不沟通地去集成系统时,你就不得不在自己的那一部分进行过度设计。

但如果我们作为一个团队协同工作,我们就能够确保把系统推到极限——在同样的电力下获得更高吞吐,或者在相同吞吐下节省成本。


主持人:回到软件这一点:你提到 Excel 并不是为 AI 设计的,但现在像 Claude 已经可以直接使用它了。那你们投入这些库,是为了让模型更好地完成这类任务?还是说,也是想减少对微软或其他厂商的依赖,提供一种替代方案?

黄仁勋:SQL(结构化查询语言,帮你从数据库里查数据、改数据、分析数据)就是一个很好的例子。

SQL 是给人用的,我们也像其他人一样在使用 SQL 系统,它是企业的“真实数据来源”。但现在,不仅仅是人会访问 SQL 数据库,还会有大量的 agent 来访问它。

主持人:而且它们会快得多。

黄仁勋:它们必须快得多。所以第一件事就是,我们必须加速 SQL。这就是最直接的逻辑。

    Transformer 不够用了      
AI 进入混合架构时代


主持人:说到模型,你提到语言模型只是其中一类。你在上周文章里也提到,真正最具变革性的进展,其实发生在蛋白质、化学、物理仿真、机器人和自动系统这些领域。你之前还说过“万物皆 token”。那你觉得,Transformer 会成为通用基础架构吗?还是说,这些方向还需要新的根本性突破?

黄仁勋我们需要各种各样的新模型。

比如,Transformer 的注意力机制是二次复杂度的,那如何支持长记忆?又怎么实现超长对话,而不让 KV cache 随时间不断膨胀、变得低效甚至“失效”?

主持人:甚至需要整机架的固态硬盘来存 KV cache。

黄仁勋:是的。而且,即便你记录了我们所有的对话,当你回头去引用时,哪些部分是最重要的?

我们需要一种新的架构,能够更好地处理注意力,并且能够非常快地处理这些问题。

一方面,我们提出了一种 Transformer + SSM 的混合架构,让 Nemotron 3 能同时兼顾智能性和效率,这是一个方向。

另一个方向是具备“几何感知”的模型。现实世界中很多结构是对称的,模型不仅要生成“统计上合理”的结果,还要符合物理规律,比如对称性,像 cuEquivariance 就是在解决这个问题。

此外,语言是离散的(token),而动作是连续的。现实任务往往同时包含这两类信息,而 Transformer 并不擅长同时处理离散与连续问题。

持人:明白。

推理与编程


主持人:再引用你文章中的一句话:“在过去一年里,AI 跨越了一个重要门槛。模型已经足够好,可以规模化应用;推理能力提升,幻觉减少,grounding 大幅改善。第一次,基于 AI 的应用开始真正产生经济价值。”这个变化具体是什么?我在想,今年显然是 agent 的一年,但去年是推理能力的突破吗?

黄仁勋:生成式 AI 本身是一个重大突破,但它会产生很多幻觉,所以我们必须让它“ground”(落地、有理有据)。

实现 grounding,要靠推理、反思、检索和搜索等能力,把 AI 和现实世界真正连接起来。没有推理能力,这一切都无从谈起;正是推理,让生成式 AI 不再只是“会生成”,而是能变得更“落地”、更有依据。

一旦完成了 grounding,AI 就能进一步去理解问题、拆解问题,并把它分解成可执行的步骤。再往前走,下一阶段就是工具使用。

这也解释了为什么搜索服务一直很难收费:获取信息当然重要,但光有信息,往往还不足以让人付费。比如“哪里有家好餐厅”,这类答案有用,但价值还没高到非付费不可——当然,也有人愿意为此买单,我自己也会。

但现在,AI 已经跨过了这个门槛:它不只是给你信息,而是开始真正替你做事。编程就是最典型的例子。

如果仔细看,编程其实并不完全等同于自然语言,它更像一种新的模态。你得教模型理解空格、缩进、符号这些东西。而且代码也不能只靠逐 token 生成,你必须让模型对整段代码进行反思和校验:结构是否合理、实现是否优化、能不能编译通过。

它追求的不是“看起来大概率正确”,而是“最终能不能运行”。

主持人:对,要么能跑,要么不能。

黄仁勋:必须能跑,这一点很关键。所以,掌握这种“代码模态”非常重要。

一旦做到这一点,变化就发生了:原本我们每年要花几十万美元请工程师写代码,而现在他们有了 coding assistant,他们可以把精力从逐行写代码,转向思考架构;用更抽象的“规格说明”来描述软件,而不是直接写实现,这让效率大幅提升。

时间也从写代码,转向真正重要的事——解决问题和创新。

在我们公司,软件工程师现在 100% 都在使用 coding agent。很多人已经很久没手写过一行代码,但依然非常高效,而且同样非常忙。


主持人:但会不会因为编程具备可验证性,让人们容易对 agent 的能力过度外推?AI 可以自我验证、反复迭代,几乎不需要人类介入,那其他领域没法验证怎么办?

黄仁勋:不,AI 的核心不是“验证”,而是“反思 + 迭代”。

比如设计房子或厨房,这些原本属于建筑师或设计师的工作,现在普通人也可以借助 agent 来完成。你只需给出参考风格,它就能不断对比效果与预期,不满意就反复优化。

即便没有明确的“对错标准”,它依然可以持续迭代。事实上,越是偏概率、审美和主观判断的任务,AI 往往表现得更好。


CPU的角色



主持人:随着 agent 的出现,你一直强调加速计算,也经常“吐槽” CPU。但现在 CPU 又变得重要了,你们也在卖 CPU,这是什么感觉?

黄仁勋:毫无疑问,摩尔定律已经结束了。

加速计算并不是简单的并行计算。30 年前有很多并行计算公司,最终只有英伟达存活下来,因为我们意识到,目标不是取代 CPU,而是加速应用。

我们从来不是反对 CPU,也不可能违背 Amdahl 定律——系统里总有一部分是无法被加速的。

因此,在我们的系统中,我们会选择最好的、甚至最昂贵的 CPU。因为一旦 CPU 性能不够强,就会拖慢那些价值数百万美元的 GPU。

主持人:以前在分支预测(branch prediction)上,你担心的是浪费 CPU 时间;现在你担心的是浪费 GPU 时间。

黄仁勋:没错,绝不能让 GPU 被浪费,更不能让它空转。因此我们始终选择最好的 CPU,甚至自己做了 Grace,就是为了获得更强的单线程性能和更快的数据传输。

所以,加速计算从来不是“反对 CPU”。我的基本判断依然是:依赖通用计算、单纯堆晶体管的那一套已经行不通了。但从本质上说,我们从来不是反 CPU 的。

不过,现在这些 agent 已经能进行工具调用(tool use)了,而它们想用的工具,其实都是为人类设计的,基本可以分为两类:

第一类,是运行在数据中心里的工具,其中大部分是 SQL,本质上是各种数据库相关系统。第二类,是个人电脑上的工具。

接下来,我们将看到 AI 能够学会“非结构化”的工具使用。

过去那种工具使用是结构化的,比如 CLI(命令行)、API,它们都是结构化接口:命令是明确的,参数是明确的,交互方式也是明确的。

但大量应用从一开始就没有提供 CLI 或 API,这就需要 AI 具备多模态能力,以“非结构化”的方式去操作,比如浏览网页、识别按钮、操作下拉菜单,像人一样一步步完成任务。

而这类工具使用,很大程度上依赖 PC。我们在两端都有布局:一方面是强大的数据处理系统,另一方面,正如你所说,英伟达的 PC 也是全球性能最强的。


主持人:那面向 agent 的 CPU,和传统 CPU 有什么不同?比如你们是否会部署一整机架的 Vera CPU?

黄仁勋:过去十年里的 CPU,基本都是为超大规模云计算(hyperscale cloud)设计的。而云厂商的变现方式,是按 CPU 核心数收费。

所以你会倾向于设计那种核心数尽可能多、可以出租的 CPU,至于单核性能,反而是次要的。

主持人:因为主要是在处理网页延迟(web latency)。

黄仁勋:完全正确。所以过去的优化目标,其实是尽可能提升 CPU 实例数量,这也是为什么会出现动辄两百、三百,甚至四百核心的 CPU。

但这类 CPU 的单核性能并不强。而在 agent 的工具调用场景下,一旦 GPU 需要等待 CPU 完成任务,真正关键的反而是尽可能强的单线程性能。


主持人:那只是速度问题吗?还是说 CPU 本身也需要更高并行度,避免 cache miss 等问题?是不是整个执行流水线都需要变化?

黄仁勋:最重要的是单线程性能,同时 I/O 能力必须非常强。

因为现在是在数据中心环境下,会有大量单线程实例在运行,这会对 I/O 系统和内存控制器产生很大压力。Vera 在“每核带宽”和“整体带宽”上,都是历史上任何 CPU 的三倍。它的设计目标就是提供极高的 I/O 带宽和内存带宽,确保 CPU 永远不会被“卡住”。

因为一旦 CPU 被限制住,就会拖慢一大堆 GPU。


主持人:那这个 Vera 机架虽然与 GPU 机架紧密连接,但在架构上仍然是解耦的吗?也就是说,GPU 可以服务多个 Vera 核心,而不是一一绑定?

黄仁勋:是的。

主持人:明白了。那你们和 Intel 的合作,以及 NVLink,在这里是怎么发挥作用的?

黄仁勋:有些用户接受 Arm 架构,但也有很多用户——尤其是企业计算,依然需要 x86,因为他们有大量现有软件栈,不愿意迁移。

所以 x86 依然非常重要。

主持人: x86 架构的生命力,会让你感到意外吗?

黄仁勋: 不会。英伟达的 PC 依然是 x86,我们所有的工作站也是 x86。

引入 Groq:不是替代 GPU,而是补齐它


主持人:正如你今天在主题演讲中提到的,你是“token 之王”。你在文章里也说过,从第一性原理来看,AI 的上限其实取决于能源。如果是这样的话,如果系统能产生多少 token,本质上受限于数据中心里的能源,那为什么还有公司要去和“token 之王”竞争?

黄仁勋:这会很难。因为光是造一颗芯片,就想取得非常显著的效果,这是不现实的。即便是像 Groq 这样的公司,如果不和我们的 Vera Rubin 搭配,也很难取得好的结果。

黄仁勋:如果你从整个推理(inference)的“能力边界”来看,一方面你希望吞吐量尽可能高,另一方面你又希望每个 token 尽可能“聪明”——token 越聪明,你就可以收更高的价格。

一边是最大化吞吐,一边是最大化智能,希望每个 token 更“聪明”。这是一个非常难以平衡的问题。

主持人:我记得你去年有一页 PPT 讲到帕累托曲线(两件事不能同时做到最优时,它们之间的权衡边界)。

当时在介绍 Dynamo(英伟达提出的一套帮你在“速度 vs 智能”之间自动调度的 AI 推理系统)时,你说英伟达的 GPU 可以覆盖整条曲线,用户不用权衡,直接用你们的方案就行。但现在听起来,你的意思是:其实并不能完全覆盖?

黄仁勋:我们仍然比任何系统都更好地覆盖了这条曲线。

但我们可以进一步扩展帕累托边界,尤其是在极高 token 速率和极低延迟的区域。不过这样做会降低整体吞吐。

不过,现在情况发生了变化:因为 coding agent 的出现,这些 AI agent 正在创造非常好的经济价值,而且这些 agent 是绑定在人类身上的——这些人本身就非常有价值。

主持人:对,他们甚至比 GPU 还贵。

黄仁勋:没错。所以我希望给我的软件工程师提供最高 token 速率的服务。如果 Anthropic 推出一个 Claude Code 的高阶版本,能把编程效率提升 10 倍,我一定会付费,绝对会。

主持人所以你是在为自己做这个产品?

黄仁勋:我觉得很多伟大的产品,都是因为你亲身感受到一个痛点,并意识到市场会往这个方向走。

我们也希望我们的 coding agent 能快 10 倍。但在一个高吞吐系统中做到这一点非常困难,所以我们决定引入 Groq 的低延迟系统,然后进行协同运行、协同处理。

主持人:所以这是把 decode 和 prefill 分开处理吗?

黄仁勋:我们甚至会把 decode 里的高计算量部分(高 FLOPS 部分),包括 attention,也拆分出来。

主持人:也就是说,你们甚至把拆分做到了 decode 这一层。

黄仁勋:是的,而这需要非常紧密的耦合,以及非常深度的软件集成。


主持人:你们是怎么做到的?你说今年就会出货,但这个合作也就是几个月前才宣布的。

黄仁勋:其实我们很早就在做“解耦推理”(disaggregated inferencing)这件事了。Dynamo 是我们把这个想法公开的一次表达。

在我宣布 Dynamo 的那一天,其实我已经在思考:如何在异构基础设施中,更细粒度地拆分推理任务?而 Groq 的架构,是我们这种思路的一个极端版本,他们自己其实走得很辛苦。


主持人:Dynamo 是一年前发布的,而 Groq 的事情大概是去年圣诞节前后才发生的。有没有什么关键事件让你决定要这么做?

黄仁勋:其实没有。我们两三年前就已经在思考“推理解耦”这个方向了。大概在宣布收购前六个月,我们就开始和 Groq 接触,讨论如何把 Grace Blackwell 和 Groq 结合起来。

我很喜欢他们的团队。不过我们并不想要他们的云业务——他们有自己的业务,也做得很好,但那不是我们想要的部分。所以我们决定收购团队、授权技术,然后在这个基础架构上继续演进。

主持人:所以这是一次“巧合”?或者说也不是巧合?

黄仁勋:可以说是“战略性的偶然”。

主持人:OpenAI 现在也在和 Cerebras 合作(今年 1 月宣布的)。

黄仁勋:那完全是他们独立做的,说实话我之前都不知道。不过这不会改变我们的决策。我认为 Groq 的架构本来就是我会选择的,它对我们来说更合理。

主持人:这是第一次有 ASIC 路线让你觉得“这确实是本质上的不同”吗?

黄仁勋:不是,Mellanox 才是。

我们把计算栈的一部分放进了 Mellanox 网络里。如果没有 Mellanox 的“网络内计算”(in-network computing),NVLink 不可能做到现在的规模。

把软件栈拆分,并放到最合适的位置执行,这是 英伟达 的专长。我们不执着于“计算必须在哪里发生”,我们只关心一件事:加速应用。

记住,英伟达 是一家“加速计算公司”,而不是一家 GPU 公司。


主持人:你提到能源是关键约束。那么在客户做采购决策时,是否可以简单理解为:要么选传统 GPU,要么选 Groq 这样的 LPU 机架,本质就是看哪种方案能带来更高收益?

黄仁勋:这取决于业务阶段。如果还没有成熟的企业级用例,大多数用户仍是免费用户(比如三分之二免费、三分之一付费),那引入 Groq 并不划算,因为这样成本更高,还会占用宝贵的电力资源。

主持人:而且还增加系统复杂度,占用服务器资源,也有机会成本。

黄仁勋:对,这些资源本可以用来服务更多免费用户。

但如果是像 Anthropic 或 OpenAI 这样的业务,比如 Codex 已经能带来可观收益,只是希望生成更多 token,那么引入这类加速器,就能显著提升收入。

从算力稀缺到生态竞争


主持人:我们现在的瓶颈到底是电力、晶圆厂产能,还是别的什么?大家都在说供给不够,真正的限制因素是什么?

黄仁勋:我觉得几乎所有环节都接近瓶颈了。你很难把任何一个环节翻一倍。

主持人因为你会撞上其他约束。

黄仁勋: 对。

主持人:不过感觉美国在电力方面其实做得还不错,可能比几年前预期的要好,但现在看起来,芯片反而更像是主要瓶颈。

黄仁勋:我们的供应链规划得还是比较充分的。我们早就为一个非常大的增长年份做了准备,而且明年也会是一个非常大的年份。我们的供应链里有几百个合作伙伴,而且都是长期合作关系,所以在这方面我还是挺有信心的。

我不觉得我们现在的电力有“翻倍的富余”,也不觉得芯片供应有“翻倍的富余”,实际上没有任何一项资源是有两倍余量的。但从我目前看到的情况来看,从供应链角度,我们还是能够支撑未来需求的。

如果说我最希望改善的一点,那就是土地、电力和厂房这些基础设施能更快建设起来。


主持人:那是否可以这样理解:在资源稀缺的情况下,英伟达反而是最大受益者?比如电力紧张时,你们的芯片更节能,利用效率更高;产能受限时,你们又提前锁定了供应链,因此更有可能成为赢家?

黄仁勋:我们是这个领域里最大的公司之一,而且我们确实在规划上做得很好。我们在供应链的上游和下游都做了布局,所以我认为我们为行业增长做了充分准备。

主持人:那从另一个角度看,如果无法进入中国市场,会不会成为一个风险?比如中国如果拥有充足的电力和芯片,即便是 7nm 的芯片,他们也可能逐步建立起一个生态,长期来看甚至能和 CUDA 竞争,这是不是你的担忧?

黄仁勋:毫无疑问,我们需要让美国的技术栈在中国存在。我从一开始就一直强调这一点,因为开源软件一定会不断涌现。

而且,没有哪个国家在开源软件上的贡献比中国更大。同时我们也清楚,全球大约一半的 AI 研究人员来自中国,而且他们非常有创造力。像 DeepSeek、Kimi、Qwen 都不是普通技术,而是非常出色的成果——它们在模型架构以及整个 AI 技术栈上,都做出了独特贡献。因此,这些公司必须被认真对待。

如果全球的技术体系是构建在美国技术栈之上的,那么当这些创新从中国扩散出来(而这几乎是必然的,因为它们是开源的),无论流向美国本土、东南亚还是欧洲,美国技术栈都能够承接并吸收这些成果。


主持人:上次我们聊的时候,特朗普政府刚刚禁止了 H20。你当时有没有觉得惊讶,后来你居然能说服政府改变看法?那现在又被中国政府限制,你会更意外吗?

黄仁勋:中国方面的限制我并不意外。因为中国当然希望发展自己的技术栈。

在我们退出那个市场的这段时间里,你也知道中国行业发展有多快。华为创下了历史最佳业绩,这是一家历史非常悠久的公司,却实现了创纪录增长。同时还有五六家面向 AI 领域的芯片公司完成了 IPO。

我认为,我们需要在“美国技术领导力”和“地缘政治领导力”上更加有战略性地思考。

AI 并不仅仅是模型,这是一个很深的误解。正如我们一开始说的,AI 是一个“五层蛋糕”:基础设施、芯片、平台、模型、应用,我们必须在每一层都赢。

而我们现在的一些做法,其实正在削弱我们在这五个层面的领导能力。

我认为,一个非常糟糕的策略是:把整个技术栈从上到下打包、强行捆绑,让所有公司都在一个整体体系里竞争。这样的话,最终的上限会被最弱的一层限制。我们应该让每一层都自由去竞争、去赢市场。

主持人那是不是其他层面(比如软件公司)因为更早进入华盛顿,所以在政策上更有经验,而你们来得稍微晚一点?

黄仁勋:可能是吧。

主持人:那你最大的收获是什么?你从华盛顿学到了什么?

黄仁勋:让我最意外的是,“末日论者”(doomers)在华盛顿的影响有多深,以及他们的言论对政策制定者心理的影响有多大。

主持人: 大家变得更害怕了,而不是更乐观。

黄仁勋:没错,我认为这有两个根本问题。

在这次工业革命中,如果我们不让技术在美国内部扩散、不去充分利用它,我们就会重蹈上一轮工业革命欧洲的覆辙——他们被我们甩在后面。

而事实上,上一轮工业革命中的很多技术,都是欧洲发明的,只是我们更好地利用了它。我希望我们能够有足够的历史智慧和技术理解,不要被科幻式的“末日叙事”困住。这些夸张的故事正在吓坏那些本来就不太理解技术的政策制定者,这对现实毫无帮助。

我最担心的一点是:在美国民众中,AI 的支持度正在下降。这是一个非常严重的问题。这和上一轮工业革命中电力、电机、内燃机的情况很类似——当时这些技术的“受欢迎程度”也在下降。

互联网也是一样。你可以想象吗?其他国家更快地接受了互联网,让它更快地渗透到产业和社会中。

所以我们必须非常警惕,不要把 AI 塑造成某种神秘、可怕的“科幻产物”,这样只会让人恐惧。

我不喜欢那些到处制造恐慌的“末日论者”。真正的“提醒风险”和“制造恐惧”是两回事。

主持人:我觉得一个常见问题是,有些人喜欢用很复杂的方式去讨论这些问题,但忽略了大众传播其实是用简单、直接的方式完成的。你没办法说“你只需要害怕这一点,不要害怕那一点”,你传递出去的其实就是整体的恐惧,而不是乐观。

黄仁勋:对,而且这样会让他们显得更聪明。、 有时候这可能也和融资有关,也可能和获取监管优势有关。他们这么做有很多动机,这些人确实很聪明。

但我想提醒他们:很多这种做法最终可能会反噬,他们将来可能会为此感到后悔。

先做一套全栈,然后做成刚需平台


主持人:在自动驾驶领域,你们既与多家车厂合作,也有自己的 Alpamayo 模型,同时还在向特斯拉供芯片。

你今天的演讲中也提到了 OpenClaw;另一方面,像 Vera 这样的芯片,其实很大程度上是由 agent 的发展驱动的,比如 Claude Code 和 OpenAI 的 Codex。

我想问的是,这背后是否有一个一致的逻辑:你们一方面为行业领先者提供芯片,另一方面迅速跟进其能力,并开放给更多竞争者,从而既扩大客户基础、不依赖头部玩家,又借助“被甩下”的焦虑带动整体需求?

黄仁勋:不是这样的。

我们在很多领域本身就处于最前沿。从某种意义上说,我们在很多领域都是领导者。但我们从不把这些能力做成最终产品。

我们是一家“技术栈公司”。所以我们必须站在技术前沿,必须成为这个技术栈的世界领导者,但我们不是解决方案厂商,也不是服务提供商。这是第一点。

主持人:这种情况会一直这样吗?

黄仁勋:会,一直如此。没有理由改变,而且我们也很乐意这样做。我们创造这些技术,然后把它们开放给所有人。

主持人:不过挺有意思的是,你们现在的硬件产品里,一个机架可能包含三万多个 SKU,而且越来越多由你们来定义,以便更高效地组装和集成。那在软件层面,是否也会走类似路径?比如你提到的垂直整合和开源模型。

黄仁勋:我们会先“垂直地”把一整套东西做出来,然后再“水平地”开放出去,让大家可以按需使用其中的任何部分。

主持人:前提是他们运行在英伟达芯片上?

黄仁勋:他们可以用任何他们想用的部分,不一定非要用全部 英伟达 芯片,也不一定要用全部 英伟达 软件。

我们必须先做垂直整合、垂直优化,但完成之后,我们会开放源代码,提供能力,让大家自己决定怎么用。


主持人:那你觉得 英伟达 能一直在“前沿模型”这件事上保持竞争力吗?毕竟像 Meta 似乎有点掉队,而另一类替代方案,很多是中国模型。

黄仁勋:在那个领域“赢”对我们来说并不重要。

持人 不是说一定要赢,而是说:需要有人提供开源的前沿模型。如果不是你们,那会是谁?

黄仁勋:总得有人去做开源模型,而 英伟达 在这方面确实有能力。而且,每次我们做开源模型,我们也能从中学到很多关于计算本身的东西。

主持人:那 Blackwell 当时是不是遇到了一些问题?我听说训练过程可能比以前更困难。

黄仁勋:Blackwell 的挑战 100% 来自 NVLink 72,这部分工作非常艰难。那是我唯一一次在发布会上特意感谢大家和我们一起扛过来的。

主持人:我当时注意到你说那句话,非常真诚。

黄仁勋:是的,因为我们确实把大家“折腾”得够呛,但现在大家都很喜欢这个成果。


主持人:你会担心业务铺得太开吗?还是说你们依然有类似 CUDA 的“飞轮效应”——看似在做很多事,本质上是在不断复用同一套方法?

黄仁勋:英伟达 之所以能行动这么快,是因为我们始终有一套统一的理论。

这也是我的工作:明确什么是重要的,这些事情如何彼此关联,并构建一个能够高效执行的组织。

这套统一理论其实很简单:一方面,我们拥有计算与软件平台,也就是 CUDA-X;另一方面,我们是一家计算系统公司,通过全栈的垂直优化和极致协同设计(co-design)来打造系统。

这个“计算机”本身就成为我们的平台,我们再把它集成进各类云厂商和 OEM 体系中。现在,我们还在构建新的平台:数据中心平台,也就是 AI 工厂。

一旦理解了 英伟达 在做什么、以及如何去做,这一切就会变得清晰。而我在这次 keynote 中,其实也是在讲这个故事。某种程度上,也是讲给我们自己的员工听。

参考链接:https://stratechery.com/2026/an-interview-with-英伟达-ceo-jensen-huang-about-accelerated-computing/

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

会议推荐

OpenClaw 出圈,“养虾”潮狂热,开年 Agentic AI 这把火烧得不可谓不旺。在这一热潮下,自托管 Agent 形态迅速普及:多入口对话、持久记忆、Skills 工具链带来强大生产力。但这背后也暴露了工程化落地的真实难题——权限边界与隔离运行、Skills 供应链安全、可观测与可追溯、记忆分层与跨场景污染、以及如何把 Agent 纳入团队研发 / 运维流程并形成稳定收益。

针对这一系列挑战,在 4 月 16-18 日即将举办的 QCon 北京站上,我们特别策划了「OpenClaw 生态实践」专题,将聚焦一线实践与踩坑复盘,分享企业如何构建私有 Skills、制定安全护栏、搭建审计与回放机制、建立质量 / 效率指标体系,最终把自托管 Agent 从可用的 Demo 升级为可靠的生产系统。

今日荐文

图片
你也「在看」吗?👇

黄教主这个观点我赞同,现在动不动就上千亿参数的大模型,耗电量确实惊人。我觉得对于开发者来说,除了关注算法层面的优化,还可以从以下角度入手:

1. 模型压缩与量化: 尝试使用模型压缩和量化技术,减少模型大小和计算复杂度,降低能耗。
2. 边缘计算: 将一部分计算任务放到边缘设备上进行,减少数据传输和中心服务器的压力。
3. 绿色AI框架: 关注一些新兴的绿色AI框架,这些框架通常会提供一些节能的工具和方法。

混合架构是肯定的,单一架构很难解决所有问题。我觉得未来的趋势可能是:

* Transformer + X: Transformer作为核心,结合其他模块(如记忆模块、知识图谱等)来增强特定能力。
* 模块化设计: 模型像乐高积木一样,可以根据任务需求灵活组合不同的模块。
* 神经符号结合: 将神经网络和符号推理结合起来,实现更强的逻辑推理能力。
* 自适应架构: 模型可以根据输入数据和任务目标,动态调整自身的结构和参数。

总之,未来的AI模型架构会更加复杂和多样化,更加注重通用性和可解释性。

这个提法很有意思!电力瓶颈绝对是未来AI发展的重要制约因素。对于数据中心而言,这意味着:

* 更高效的散热技术: 比如液冷散热,甚至相变散热等,需要降低散热成本,提高散热效率才是关键。
* 智能化的能源管理: 利用AI优化电力分配,降低能源浪费。
* 可再生能源的应用: 更多地采用太阳能、风能等可再生能源。

对于开发者而言,可以关注以下方向:

* 开发更节能的算法: 优化模型结构,减少计算量。
* 研究低功耗硬件: 关注新型计算架构,如存算一体等。
* 参与开源节能项目: 为开源社区贡献代码,共同推动AI节能技术的发展。

总的来说,从软件到硬件,都有很多机会可以参与到AI节能的浪潮中来。

我觉得除了架构上的创新,训练方式也会发生改变。现在主流的训练方式还是基于大量数据的“暴力”训练,未来可能会更加注重“小样本学习”和“终身学习”,让模型能够像人一样,从少量数据中快速学习,并不断积累知识。

“token越聪明,你就能卖得越贵”,这句话我理解的“聪明” 应该理解为token所代表的信息对用户的“效用”。

效用可以有很多维度,诸如信息量、准确性、时效性、相关性、稀缺性、甚至是情感价值,只有对用户有用的token,用户才愿意付费。而且,这个“效用”是相对的,对A用户有用的token,对B用户可能就毫无价值。因此,如何根据用户画像,提供个性化的token,才是提升token价值的关键。

楼上两位说的都很有道理。我补充一点,token的"价值"也取决于它所能解锁的后续操作或者价值链。举个例子,如果一个token能直接触发智能合约,完成支付或者数据共享,那它的价值肯定比单纯的信息token高得多。实际上可以理解为token在整个系统中扮演的角色越重要,它的价值就越高。

我比较关注“神经形态计算”这个方向。Transformer本质上还是基于冯诺依曼架构的,在处理某些任务时效率不高。神经形态计算模仿人脑的工作方式,具有低功耗、高并行等优点,可能在未来的AI模型架构中发挥重要作用。

Transformer的局限性确实很明显。下一代AI模型可能在以下几个方面取得突破:一是更有效的记忆机制,能够处理更长的上下文信息;二是更强的推理能力,能够理解物理世界和逻辑关系;三是更好的泛化能力,能够适应更复杂的任务。混合架构是一种可能的方向,但也可能出现全新的架构。

Token的价值,我觉得还得看场景。在某些需要创造力的场景下,token的价值可能体现在它能激发多少灵感;而在一些对准确性要求高的场景下,token的价值就体现在它能多大程度避免错误。所以,Token的价值是动态的,取决于具体的应用需求。

没错,现在AI竞争已经不是单打独斗的时代了。创业公司想要突围,光靠一个酷炫的算法是不够的,必须考虑如何将算法融入到整个AI生态中。比如,可以专注于开发易于集成、可定制化的AI组件,成为AI生态中的重要一环。

确实,Transformer在处理超长文本时,效率会显著下降。我感觉未来AI模型可能会向着更模块化、更层次化的方向发展,不同的模块负责不同的任务,比如专门的记忆模块、推理模块等。这样既能提高效率,也能增强模型的可解释性。

或者可以参考人脑的结构,人脑在处理复杂问题时,会调用不同的脑区协同工作。未来的AI模型也可以借鉴这种思想,将不同的模型组合起来,形成一个更强大的系统。

老黄的这个观点非常值得关注。如果电力成为AI发展的瓶颈,那意味着我们必须更加重视能效比,提高单位功耗下的计算能力。这会倒逼芯片设计和算法优化,比如开发专用AI芯片、研究更高效的训练方法等。另一个可能的影响是,边缘计算会变得更加重要,因为在本地进行推理可以减少数据传输,降低对数据中心的需求。

说不定以后“每度电的智商”会成为衡量AI公司实力的一个重要指标呢!

Transformer 确实有局限性,但我认为它在一段时间内仍然会是主流。未来的方向可能是 Transformer 的各种变体,例如Sparse Transformer、Longformer等,它们通过改进注意力机制来提高处理长序列的能力。另外,多模态融合也是一个重要的方向,将 Transformer 与其他模型(例如 CNN、RNN)结合起来,可以更好地处理复杂的任务。

电力要是真成瓶颈,那可就热闹了。先是AI训练成本飙升,接着各家公司为了省电,肯定开始“军备竞赛”,看谁家的算法更省电,谁家的芯片能效比更高。小公司可能直接被淘汰,大公司也得勒紧裤腰带过日子。说不定以后AI都得按用电量收费,用不起就只能用“乞丐版”AI了,手动滑稽.jpg。

AI工厂,说白了就是英伟达想把整个AI产业链都攥在手里。数据中心是“毛坯房”,AI工厂是“精装修”,里面啥都有,拎包入住。以后大家搞AI,不用自己搭环境、调参数,直接在英伟达的AI工厂里“租用服务”就行了。当然,前提是你得用英伟达的芯片和软件,嘿嘿。

如果电力真的成为瓶颈,那可能意味着算力会变得更加昂贵,进而影响AI的普及。一些需要大量算力的AI应用,比如自动驾驶、大规模语言模型等,可能会受到限制。同时,这也可能导致AI领域的创新方向发生转变,大家会更加关注小模型、低功耗算法的研究。

当然,从另一个角度看,电力瓶颈也可能促进新能源的发展,比如核聚变、太阳能等,从而为AI提供更可持续的能源。

我是个程序员,我觉得这种模式挺好的。有统一的标准和工具链,开发效率肯定高。而且,英伟达的技术实力毋庸置疑,跟着他们走,至少不会掉队。当然,如果能更开放一些,让大家参与进来,一起完善这个技术栈,那就更好了。