黄仁勋GTC后发声:AI新通货是Token,决胜关键在于“每度电的智商”

黄仁勋GTC后专访强调AI的Token经济与英伟达的全栈野心,认为电力效率是关键,并警惕AI“末日论”带来的负面影响。

原文标题:英伟达改卖Token?黄仁勋GTC后发声:token就是AI新通货,值钱的不是算力,是“每度电的智商”

原文作者:AI前线

冷月清谈:

英伟达CEO黄仁勋近日接受Stratechery专访,强调英伟达作为加速计算公司而非GPU公司,认为AI竞赛的核心在于Token产出而非单纯算力。他指出AI发展面临电力、芯片、基础设施、模型和应用等多层挑战,英伟达的目标是构建一套完整的技术栈,先自研再开放,让行业在其体系内发展。Transformer架构在长记忆、物理规律和连续任务方面存在局限,未来需要混合架构。随着Agent直接创收,电力效率转化为Token价值成为关键。英伟达通过全栈协同设计,将计算平台打造为基础设施,并拆分计算、采用混合架构以优化AI推理的吞吐量和价值。他同时强调需要在每一层都赢,而不是将整个技术栈捆绑。此外,黄仁勋还表达了对美国AI支持度下降的担忧,以及对“末日论者”言论的警惕,他认为这些夸张的故事会吓坏那些本来就不太理解技术的政策制定者,这对现实毫无帮助。

怜星夜思:

1、黄仁勋提到token是AI时代的核心货币,你怎么理解token在AI领域的价值?token单价会持续升高吗?
2、黄仁勋认为Transformer在长记忆、物理规律和连续任务上已经不够用,你认为未来AI模型的架构会如何发展?
3、黄仁勋提到“AI的真正瓶颈不是某一个环节,而是‘全链条同时吃紧’”,你觉得在AI应用落地的过程中,哪些环节最容易成为瓶颈?作为开发者或者从业者,我们应该如何应对?

原文内容

作者 | 木子

“记住,英伟达是一家加速计算公司,而不是一家 GPU 公司! ”

前几天举起“token 之王”奖牌的黄仁勋,在最近的一次采访中这样强调。

在他看来,目前的 AI 竞赛,已经从拼算力变成拼产出,问题不再只是“算得有多快”,而是:能否迅速、便宜地做出高质量结果

虽然 GPU 本质也算加速计算,但显然它只加速“计算”这一环是远远不够的,现在 AI 的新挑战,早已外溢到数据搬运、内存、网络和推理流程。整条链路都必须一起提速。

这就像木桶效应,只要链路里有一环慢,最终的产出就会被卡住。

该示意图由 AI 生成

那最终的“产出”如何衡量?

一个简单直接的方式就是看 token,这个 AI 时代的“产出单位”。

黄仁勋直言道,你可以把 token 看作 AI 时代的核心货币,token 越聪明,你就能卖得越贵。

当然,这实际上并不是指 token 本身“聪明”,毕竟其本质只是文本单位,真正“聪明”的是生成这个 token 的模型。 如果一个模型用更少的 token,就能一次性给出更准确、更有用的结果,那这些 token 的“价值”就更高。

GTC 上新亮相的 Groq LPU,正是英伟达针对“token 产出”给出的一个解法:他们收购了这家专注超低延迟推理芯片的公司,并共同推出了新的 Groq LPU

它并不是用来取代 GPU,而是专门解决一个问题:如何在极低延迟下,更快地产生 token。

在 GTC 演讲后,老黄接受了 Stratechery 创始人 Ben Thompson 的专访,讲清了三件更底层、更关键的事情:AI 的瓶颈在电力而非芯片,下一代推理将走向 GPU+LPU 的混合架构,而真正的竞争不在模型本身,而在技术栈的主导权。

他的核心观点整理总结如下:

  • 整个软件世界都要加速:AI 开始直接使用人类的软件工具,而这些系统必须整体加速,才能跟上 agent 的速度。低延迟决定 AI 赚钱能力。

  • 从芯片到系统再到 AI 工厂,英伟达真正的目标不是卖算力,而是构建一整套技术栈:先自己做一遍,再开放出去,让别人都在它这套体系里干活。

  • Transformer 不是终极架构:它在长记忆、物理规律和连续任务上已经不够用了,下一代模型需要混合架构。

  • 从语言到现实世界,AI 不再只是处理 token,而是要同时理解记忆、结构和连续动作。

  • 当 agent 开始直接创收时,算力不再只有一种最优解,关键是谁能把每一分电力转化成更多有价值的 token。

  • 英伟达看起来在做很多事,本质上是在不断复制同一套方法:用全栈协同设计,把“计算平台”变成绕不开的基础设施。

  • AI 推理的核心不再只是“更强”,而是在“更快(吞吐)”和“更聪明(价值)”之间做取舍。而英伟达正在用“拆分计算 + 混合架构”把这条曲线尽可能拉满

  • AI 的真正瓶颈不是某一个环节,而是“全链条同时吃紧”;而在这种稀缺时代,谁掌控技术栈、提前布局供应链,谁就更有优势。

  • 但更深层的竞争不在电力或芯片,而是谁的“一套玩法”被全行业跟着用。

以下是本次访谈的全部重点内容,AI 前线在不改变原意的前提下进行了整理编辑。

            AI时代的CUDA:       
从算力平台到“全栈世界引擎”


主持人:我记得几年前有人问过我:为什么英伟达每次在 GTC 能发这么多东西?我的理解是,本质上还是同一套 CUDA 和软件体系,只是不断针对不同行业做适配和扩展。而你今天讲的,其实也是这个逻辑。只是相比过去几次几乎全是 AI 的主题,这次更像是一次“回到起点”的梳理。所以我想问的是:为什么你现在要重新讲 CUDA 这个故事?它的意义发生了什么变化?

黄仁勋:因为我们正在进入大量“全新的行业”,而且 AI 将开始使用工具。

当 AI 使用工具时,它用的其实是我们原本为人类打造的工具:它会用 Excel、用 Photoshop、用逻辑综合工具、用 Synopsys、Cadence 的工具。

这些工具都必须被大幅加速,因为 AI 本身运行得非常快。数据库也是一样,必须被加速。

所以在这个时代,我们需要把整个世界的软件尽可能加速,然后把它们交给 AI,让 AI 以 agent 的方式去使用这些工具。

所以可以理解为,你们已经在一些行业做过这件事,现在要扩展到更多行业?

黄仁勋:对,多很多。比如数据处理。

人:这点其实有点出乎我意料。我没想到你会以和 IBM 的合作作为开场。

黄仁勋:是的,这其实能说明问题。毕竟他们当年开启了一切。


主持人:你上周(亲自发了篇长文)写到,AI 就像一个五层蛋糕:电力、芯片、基础设施、模型和应用。那么会不会有这样的担忧:外界之前越来越把你们局限在“芯片”这一层?所以现在有必要既提醒别人、也提醒你们自己,你们其实是一家纵向整合的公司而不只是做芯片的?

黄仁勋:我思考问题的方式不是从“我们不是什么”开始,而是从“我们需要成为什么”开始。

在当年,我们就意识到,加速计算是一个完整的全栈问题。你必须理解应用,才能去加速它。

我们意识到,我们必须理解应用本身,必须拥有开发者生态,还需要在算法开发方面具备非常强的能力,因为那些为 CPU 开发的旧算法,在 GPU 上表现并不好——我们必须重写这些算法、重构这些算法,让它们能够被 GPU 加速。

但一旦做到这一点,你就可以获得 50 倍、100 倍,甚至 10 倍的加速效果,因此这是完全值得的。

我认为,从一开始,我们就清楚地知道:“我们想做什么?以及实现它需要什么?”

现在,我们在建设 AI 工厂,我们在全球范围内建设 AI 基础设施。这远远不只是造芯片,当然,芯片非常重要,它是基础。

主持人:对,这就像是一个完整的全栈,包括网络、存储,现在甚至还包括 CPU。

黄仁勋:现在你必须把所有这些整合到一起,构建成这种巨大的系统,比如一个千兆瓦级的工厂,大概需要 500 亿到 600 亿美元。在这 500 亿到 600 亿美元里,大约有 150 亿到 170 亿属于基础设施:土地、电力以及厂房外壳。剩下的则是计算、网络、存储等部分。

面对这种级别的投资,如果你不能帮助客户建立起足够的信心,让他们相信自己能够成功建成这样的系统,那你根本没有机会,没有人会去冒险投入 500 亿美元。

所以我认为,这里面的核心思想是:我们不仅要帮助客户建造芯片,还要帮助他们构建系统;而在构建系统之后,不仅仅是系统,还要构建 AI 工厂。

AI 工厂内部包含大量软件。不仅仅是我们的软件,还有大量用于散热管理、电力系统、冗余设计等等的软件。

而现在很多系统其实是“过度设计”的,因为没有人彼此沟通。当很多团队彼此不沟通地去集成系统时,你就不得不在自己的那一部分进行过度设计。

但如果我们作为一个团队协同工作,我们就能够确保把系统推到极限——在同样的电力下获得更高吞吐,或者在相同吞吐下节省成本。


主持人:回到软件这一点:你提到 Excel 并不是为 AI 设计的,但现在像 Claude 已经可以直接使用它了。那你们投入这些库,是为了让模型更好地完成这类任务?还是说,也是想减少对微软或其他厂商的依赖,提供一种替代方案?

黄仁勋:SQL(结构化查询语言,帮你从数据库里查数据、改数据、分析数据)就是一个很好的例子。

SQL 是给人用的,我们也像其他人一样在使用 SQL 系统,它是企业的“真实数据来源”。但现在,不仅仅是人会访问 SQL 数据库,还会有大量的 agent 来访问它。

主持人:而且它们会快得多。

黄仁勋:它们必须快得多。所以第一件事就是,我们必须加速 SQL。这就是最直接的逻辑。

    Transformer 不够用了      
AI 进入混合架构时代


主持人:说到模型,你提到语言模型只是其中一类。你在上周文章里也提到,真正最具变革性的进展,其实发生在蛋白质、化学、物理仿真、机器人和自动系统这些领域。你之前还说过“万物皆 token”。那你觉得,Transformer 会成为通用基础架构吗?还是说,这些方向还需要新的根本性突破?

黄仁勋我们需要各种各样的新模型。

比如,Transformer 的注意力机制是二次复杂度的,那如何支持长记忆?又怎么实现超长对话,而不让 KV cache 随时间不断膨胀、变得低效甚至“失效”?

主持人:甚至需要整机架的固态硬盘来存 KV cache。

黄仁勋:是的。而且,即便你记录了我们所有的对话,当你回头去引用时,哪些部分是最重要的?

我们需要一种新的架构,能够更好地处理注意力,并且能够非常快地处理这些问题。

一方面,我们提出了一种 Transformer + SSM 的混合架构,让 Nemotron 3 能同时兼顾智能性和效率,这是一个方向。

另一个方向是具备“几何感知”的模型。现实世界中很多结构是对称的,模型不仅要生成“统计上合理”的结果,还要符合物理规律,比如对称性,像 cuEquivariance 就是在解决这个问题。

此外,语言是离散的(token),而动作是连续的。现实任务往往同时包含这两类信息,而 Transformer 并不擅长同时处理离散与连续问题。

持人:明白。

推理与编程


主持人:再引用你文章中的一句话:“在过去一年里,AI 跨越了一个重要门槛。模型已经足够好,可以规模化应用;推理能力提升,幻觉减少,grounding 大幅改善。第一次,基于 AI 的应用开始真正产生经济价值。”这个变化具体是什么?我在想,今年显然是 agent 的一年,但去年是推理能力的突破吗?

黄仁勋:生成式 AI 本身是一个重大突破,但它会产生很多幻觉,所以我们必须让它“ground”(落地、有理有据)。

实现 grounding,要靠推理、反思、检索和搜索等能力,把 AI 和现实世界真正连接起来。没有推理能力,这一切都无从谈起;正是推理,让生成式 AI 不再只是“会生成”,而是能变得更“落地”、更有依据。

一旦完成了 grounding,AI 就能进一步去理解问题、拆解问题,并把它分解成可执行的步骤。再往前走,下一阶段就是工具使用。

这也解释了为什么搜索服务一直很难收费:获取信息当然重要,但光有信息,往往还不足以让人付费。比如“哪里有家好餐厅”,这类答案有用,但价值还没高到非付费不可——当然,也有人愿意为此买单,我自己也会。

但现在,AI 已经跨过了这个门槛:它不只是给你信息,而是开始真正替你做事。编程就是最典型的例子。

如果仔细看,编程其实并不完全等同于自然语言,它更像一种新的模态。你得教模型理解空格、缩进、符号这些东西。而且代码也不能只靠逐 token 生成,你必须让模型对整段代码进行反思和校验:结构是否合理、实现是否优化、能不能编译通过。

它追求的不是“看起来大概率正确”,而是“最终能不能运行”。

主持人:对,要么能跑,要么不能。

黄仁勋:必须能跑,这一点很关键。所以,掌握这种“代码模态”非常重要。

一旦做到这一点,变化就发生了:原本我们每年要花几十万美元请工程师写代码,而现在他们有了 coding assistant,他们可以把精力从逐行写代码,转向思考架构;用更抽象的“规格说明”来描述软件,而不是直接写实现,这让效率大幅提升。

时间也从写代码,转向真正重要的事——解决问题和创新。

在我们公司,软件工程师现在 100% 都在使用 coding agent。很多人已经很久没手写过一行代码,但依然非常高效,而且同样非常忙。


主持人:但会不会因为编程具备可验证性,让人们容易对 agent 的能力过度外推?AI 可以自我验证、反复迭代,几乎不需要人类介入,那其他领域没法验证怎么办?

黄仁勋:不,AI 的核心不是“验证”,而是“反思 + 迭代”。

比如设计房子或厨房,这些原本属于建筑师或设计师的工作,现在普通人也可以借助 agent 来完成。你只需给出参考风格,它就能不断对比效果与预期,不满意就反复优化。

即便没有明确的“对错标准”,它依然可以持续迭代。事实上,越是偏概率、审美和主观判断的任务,AI 往往表现得更好。


CPU的角色



主持人:随着 agent 的出现,你一直强调加速计算,也经常“吐槽” CPU。但现在 CPU 又变得重要了,你们也在卖 CPU,这是什么感觉?

黄仁勋:毫无疑问,摩尔定律已经结束了。

加速计算并不是简单的并行计算。30 年前有很多并行计算公司,最终只有英伟达存活下来,因为我们意识到,目标不是取代 CPU,而是加速应用。

我们从来不是反对 CPU,也不可能违背 Amdahl 定律——系统里总有一部分是无法被加速的。

因此,在我们的系统中,我们会选择最好的、甚至最昂贵的 CPU。因为一旦 CPU 性能不够强,就会拖慢那些价值数百万美元的 GPU。

主持人:以前在分支预测(branch prediction)上,你担心的是浪费 CPU 时间;现在你担心的是浪费 GPU 时间。

黄仁勋:没错,绝不能让 GPU 被浪费,更不能让它空转。因此我们始终选择最好的 CPU,甚至自己做了 Grace,就是为了获得更强的单线程性能和更快的数据传输。

所以,加速计算从来不是“反对 CPU”。我的基本判断依然是:依赖通用计算、单纯堆晶体管的那一套已经行不通了。但从本质上说,我们从来不是反 CPU 的。

不过,现在这些 agent 已经能进行工具调用(tool use)了,而它们想用的工具,其实都是为人类设计的,基本可以分为两类:

第一类,是运行在数据中心里的工具,其中大部分是 SQL,本质上是各种数据库相关系统。第二类,是个人电脑上的工具。

接下来,我们将看到 AI 能够学会“非结构化”的工具使用。

过去那种工具使用是结构化的,比如 CLI(命令行)、API,它们都是结构化接口:命令是明确的,参数是明确的,交互方式也是明确的。

但大量应用从一开始就没有提供 CLI 或 API,这就需要 AI 具备多模态能力,以“非结构化”的方式去操作,比如浏览网页、识别按钮、操作下拉菜单,像人一样一步步完成任务。

而这类工具使用,很大程度上依赖 PC。我们在两端都有布局:一方面是强大的数据处理系统,另一方面,正如你所说,英伟达的 PC 也是全球性能最强的。


主持人:那面向 agent 的 CPU,和传统 CPU 有什么不同?比如你们是否会部署一整机架的 Vera CPU?

黄仁勋:过去十年里的 CPU,基本都是为超大规模云计算(hyperscale cloud)设计的。而云厂商的变现方式,是按 CPU 核心数收费。

所以你会倾向于设计那种核心数尽可能多、可以出租的 CPU,至于单核性能,反而是次要的。

主持人:因为主要是在处理网页延迟(web latency)。

黄仁勋:完全正确。所以过去的优化目标,其实是尽可能提升 CPU 实例数量,这也是为什么会出现动辄两百、三百,甚至四百核心的 CPU。

但这类 CPU 的单核性能并不强。而在 agent 的工具调用场景下,一旦 GPU 需要等待 CPU 完成任务,真正关键的反而是尽可能强的单线程性能。


主持人:那只是速度问题吗?还是说 CPU 本身也需要更高并行度,避免 cache miss 等问题?是不是整个执行流水线都需要变化?

黄仁勋:最重要的是单线程性能,同时 I/O 能力必须非常强。

因为现在是在数据中心环境下,会有大量单线程实例在运行,这会对 I/O 系统和内存控制器产生很大压力。Vera 在“每核带宽”和“整体带宽”上,都是历史上任何 CPU 的三倍。它的设计目标就是提供极高的 I/O 带宽和内存带宽,确保 CPU 永远不会被“卡住”。

因为一旦 CPU 被限制住,就会拖慢一大堆 GPU。


主持人:那这个 Vera 机架虽然与 GPU 机架紧密连接,但在架构上仍然是解耦的吗?也就是说,GPU 可以服务多个 Vera 核心,而不是一一绑定?

黄仁勋:是的。

主持人:明白了。那你们和 Intel 的合作,以及 NVLink,在这里是怎么发挥作用的?

黄仁勋:有些用户接受 Arm 架构,但也有很多用户——尤其是企业计算,依然需要 x86,因为他们有大量现有软件栈,不愿意迁移。

所以 x86 依然非常重要。

主持人: x86 架构的生命力,会让你感到意外吗?

黄仁勋: 不会。英伟达的 PC 依然是 x86,我们所有的工作站也是 x86。

引入 Groq:不是替代 GPU,而是补齐它


主持人:正如你今天在主题演讲中提到的,你是“token 之王”。你在文章里也说过,从第一性原理来看,AI 的上限其实取决于能源。如果是这样的话,如果系统能产生多少 token,本质上受限于数据中心里的能源,那为什么还有公司要去和“token 之王”竞争?

黄仁勋:这会很难。因为光是造一颗芯片,就想取得非常显著的效果,这是不现实的。即便是像 Groq 这样的公司,如果不和我们的 Vera Rubin 搭配,也很难取得好的结果。

黄仁勋:如果你从整个推理(inference)的“能力边界”来看,一方面你希望吞吐量尽可能高,另一方面你又希望每个 token 尽可能“聪明”——token 越聪明,你就可以收更高的价格。

一边是最大化吞吐,一边是最大化智能,希望每个 token 更“聪明”。这是一个非常难以平衡的问题。

主持人:我记得你去年有一页 PPT 讲到帕累托曲线(两件事不能同时做到最优时,它们之间的权衡边界)。

当时在介绍 Dynamo(英伟达提出的一套帮你在“速度 vs 智能”之间自动调度的 AI 推理系统)时,你说英伟达的 GPU 可以覆盖整条曲线,用户不用权衡,直接用你们的方案就行。但现在听起来,你的意思是:其实并不能完全覆盖?

黄仁勋:我们仍然比任何系统都更好地覆盖了这条曲线。

但我们可以进一步扩展帕累托边界,尤其是在极高 token 速率和极低延迟的区域。不过这样做会降低整体吞吐。

不过,现在情况发生了变化:因为 coding agent 的出现,这些 AI agent 正在创造非常好的经济价值,而且这些 agent 是绑定在人类身上的——这些人本身就非常有价值。

主持人:对,他们甚至比 GPU 还贵。

黄仁勋:没错。所以我希望给我的软件工程师提供最高 token 速率的服务。如果 Anthropic 推出一个 Claude Code 的高阶版本,能把编程效率提升 10 倍,我一定会付费,绝对会。

主持人所以你是在为自己做这个产品?

黄仁勋:我觉得很多伟大的产品,都是因为你亲身感受到一个痛点,并意识到市场会往这个方向走。

我们也希望我们的 coding agent 能快 10 倍。但在一个高吞吐系统中做到这一点非常困难,所以我们决定引入 Groq 的低延迟系统,然后进行协同运行、协同处理。

主持人:所以这是把 decode 和 prefill 分开处理吗?

黄仁勋:我们甚至会把 decode 里的高计算量部分(高 FLOPS 部分),包括 attention,也拆分出来。

主持人:也就是说,你们甚至把拆分做到了 decode 这一层。

黄仁勋:是的,而这需要非常紧密的耦合,以及非常深度的软件集成。


主持人:你们是怎么做到的?你说今年就会出货,但这个合作也就是几个月前才宣布的。

黄仁勋:其实我们很早就在做“解耦推理”(disaggregated inferencing)这件事了。Dynamo 是我们把这个想法公开的一次表达。

在我宣布 Dynamo 的那一天,其实我已经在思考:如何在异构基础设施中,更细粒度地拆分推理任务?而 Groq 的架构,是我们这种思路的一个极端版本,他们自己其实走得很辛苦。


主持人:Dynamo 是一年前发布的,而 Groq 的事情大概是去年圣诞节前后才发生的。有没有什么关键事件让你决定要这么做?

黄仁勋:其实没有。我们两三年前就已经在思考“推理解耦”这个方向了。大概在宣布收购前六个月,我们就开始和 Groq 接触,讨论如何把 Grace Blackwell 和 Groq 结合起来。

我很喜欢他们的团队。不过我们并不想要他们的云业务——他们有自己的业务,也做得很好,但那不是我们想要的部分。所以我们决定收购团队、授权技术,然后在这个基础架构上继续演进。

主持人:所以这是一次“巧合”?或者说也不是巧合?

黄仁勋:可以说是“战略性的偶然”。

主持人:OpenAI 现在也在和 Cerebras 合作(今年 1 月宣布的)。

黄仁勋:那完全是他们独立做的,说实话我之前都不知道。不过这不会改变我们的决策。我认为 Groq 的架构本来就是我会选择的,它对我们来说更合理。

主持人:这是第一次有 ASIC 路线让你觉得“这确实是本质上的不同”吗?

黄仁勋:不是,Mellanox 才是。

我们把计算栈的一部分放进了 Mellanox 网络里。如果没有 Mellanox 的“网络内计算”(in-network computing),NVLink 不可能做到现在的规模。

把软件栈拆分,并放到最合适的位置执行,这是 英伟达 的专长。我们不执着于“计算必须在哪里发生”,我们只关心一件事:加速应用。

记住,英伟达 是一家“加速计算公司”,而不是一家 GPU 公司。


主持人:你提到能源是关键约束。那么在客户做采购决策时,是否可以简单理解为:要么选传统 GPU,要么选 Groq 这样的 LPU 机架,本质就是看哪种方案能带来更高收益?

黄仁勋:这取决于业务阶段。如果还没有成熟的企业级用例,大多数用户仍是免费用户(比如三分之二免费、三分之一付费),那引入 Groq 并不划算,因为这样成本更高,还会占用宝贵的电力资源。

主持人:而且还增加系统复杂度,占用服务器资源,也有机会成本。

黄仁勋:对,这些资源本可以用来服务更多免费用户。

但如果是像 Anthropic 或 OpenAI 这样的业务,比如 Codex 已经能带来可观收益,只是希望生成更多 token,那么引入这类加速器,就能显著提升收入。

从算力稀缺到生态竞争


主持人:我们现在的瓶颈到底是电力、晶圆厂产能,还是别的什么?大家都在说供给不够,真正的限制因素是什么?

黄仁勋:我觉得几乎所有环节都接近瓶颈了。你很难把任何一个环节翻一倍。

主持人因为你会撞上其他约束。

黄仁勋: 对。

主持人:不过感觉美国在电力方面其实做得还不错,可能比几年前预期的要好,但现在看起来,芯片反而更像是主要瓶颈。

黄仁勋:我们的供应链规划得还是比较充分的。我们早就为一个非常大的增长年份做了准备,而且明年也会是一个非常大的年份。我们的供应链里有几百个合作伙伴,而且都是长期合作关系,所以在这方面我还是挺有信心的。

我不觉得我们现在的电力有“翻倍的富余”,也不觉得芯片供应有“翻倍的富余”,实际上没有任何一项资源是有两倍余量的。但从我目前看到的情况来看,从供应链角度,我们还是能够支撑未来需求的。

如果说我最希望改善的一点,那就是土地、电力和厂房这些基础设施能更快建设起来。


主持人:那是否可以这样理解:在资源稀缺的情况下,英伟达反而是最大受益者?比如电力紧张时,你们的芯片更节能,利用效率更高;产能受限时,你们又提前锁定了供应链,因此更有可能成为赢家?

黄仁勋:我们是这个领域里最大的公司之一,而且我们确实在规划上做得很好。我们在供应链的上游和下游都做了布局,所以我认为我们为行业增长做了充分准备。

主持人:那从另一个角度看,如果无法进入中国市场,会不会成为一个风险?比如中国如果拥有充足的电力和芯片,即便是 7nm 的芯片,他们也可能逐步建立起一个生态,长期来看甚至能和 CUDA 竞争,这是不是你的担忧?

黄仁勋:毫无疑问,我们需要让美国的技术栈在中国存在。我从一开始就一直强调这一点,因为开源软件一定会不断涌现。

而且,没有哪个国家在开源软件上的贡献比中国更大。同时我们也清楚,全球大约一半的 AI 研究人员来自中国,而且他们非常有创造力。像 DeepSeek、Kimi、Qwen 都不是普通技术,而是非常出色的成果——它们在模型架构以及整个 AI 技术栈上,都做出了独特贡献。因此,这些公司必须被认真对待。

如果全球的技术体系是构建在美国技术栈之上的,那么当这些创新从中国扩散出来(而这几乎是必然的,因为它们是开源的),无论流向美国本土、东南亚还是欧洲,美国技术栈都能够承接并吸收这些成果。


主持人:上次我们聊的时候,特朗普政府刚刚禁止了 H20。你当时有没有觉得惊讶,后来你居然能说服政府改变看法?那现在又被中国政府限制,你会更意外吗?

黄仁勋:中国方面的限制我并不意外。因为中国当然希望发展自己的技术栈。

在我们退出那个市场的这段时间里,你也知道中国行业发展有多快。华为创下了历史最佳业绩,这是一家历史非常悠久的公司,却实现了创纪录增长。同时还有五六家面向 AI 领域的芯片公司完成了 IPO。

我认为,我们需要在“美国技术领导力”和“地缘政治领导力”上更加有战略性地思考。

AI 并不仅仅是模型,这是一个很深的误解。正如我们一开始说的,AI 是一个“五层蛋糕”:基础设施、芯片、平台、模型、应用,我们必须在每一层都赢。

而我们现在的一些做法,其实正在削弱我们在这五个层面的领导能力。

我认为,一个非常糟糕的策略是:把整个技术栈从上到下打包、强行捆绑,让所有公司都在一个整体体系里竞争。这样的话,最终的上限会被最弱的一层限制。我们应该让每一层都自由去竞争、去赢市场。

主持人那是不是其他层面(比如软件公司)因为更早进入华盛顿,所以在政策上更有经验,而你们来得稍微晚一点?

黄仁勋:可能是吧。

主持人:那你最大的收获是什么?你从华盛顿学到了什么?

黄仁勋:让我最意外的是,“末日论者”(doomers)在华盛顿的影响有多深,以及他们的言论对政策制定者心理的影响有多大。

主持人: 大家变得更害怕了,而不是更乐观。

黄仁勋:没错,我认为这有两个根本问题。

在这次工业革命中,如果我们不让技术在美国内部扩散、不去充分利用它,我们就会重蹈上一轮工业革命欧洲的覆辙——他们被我们甩在后面。

而事实上,上一轮工业革命中的很多技术,都是欧洲发明的,只是我们更好地利用了它。我希望我们能够有足够的历史智慧和技术理解,不要被科幻式的“末日叙事”困住。这些夸张的故事正在吓坏那些本来就不太理解技术的政策制定者,这对现实毫无帮助。

我最担心的一点是:在美国民众中,AI 的支持度正在下降。这是一个非常严重的问题。这和上一轮工业革命中电力、电机、内燃机的情况很类似——当时这些技术的“受欢迎程度”也在下降。

互联网也是一样。你可以想象吗?其他国家更快地接受了互联网,让它更快地渗透到产业和社会中。

所以我们必须非常警惕,不要把 AI 塑造成某种神秘、可怕的“科幻产物”,这样只会让人恐惧。

我不喜欢那些到处制造恐慌的“末日论者”。真正的“提醒风险”和“制造恐惧”是两回事。

主持人:我觉得一个常见问题是,有些人喜欢用很复杂的方式去讨论这些问题,但忽略了大众传播其实是用简单、直接的方式完成的。你没办法说“你只需要害怕这一点,不要害怕那一点”,你传递出去的其实就是整体的恐惧,而不是乐观。

黄仁勋:对,而且这样会让他们显得更聪明。、 有时候这可能也和融资有关,也可能和获取监管优势有关。他们这么做有很多动机,这些人确实很聪明。

但我想提醒他们:很多这种做法最终可能会反噬,他们将来可能会为此感到后悔。

先做一套全栈,然后做成刚需平台


主持人:在自动驾驶领域,你们既与多家车厂合作,也有自己的 Alpamayo 模型,同时还在向特斯拉供芯片。

你今天的演讲中也提到了 OpenClaw;另一方面,像 Vera 这样的芯片,其实很大程度上是由 agent 的发展驱动的,比如 Claude Code 和 OpenAI 的 Codex。

我想问的是,这背后是否有一个一致的逻辑:你们一方面为行业领先者提供芯片,另一方面迅速跟进其能力,并开放给更多竞争者,从而既扩大客户基础、不依赖头部玩家,又借助“被甩下”的焦虑带动整体需求?

黄仁勋:不是这样的。

我们在很多领域本身就处于最前沿。从某种意义上说,我们在很多领域都是领导者。但我们从不把这些能力做成最终产品。

我们是一家“技术栈公司”。所以我们必须站在技术前沿,必须成为这个技术栈的世界领导者,但我们不是解决方案厂商,也不是服务提供商。这是第一点。

主持人:这种情况会一直这样吗?

黄仁勋:会,一直如此。没有理由改变,而且我们也很乐意这样做。我们创造这些技术,然后把它们开放给所有人。

主持人:不过挺有意思的是,你们现在的硬件产品里,一个机架可能包含三万多个 SKU,而且越来越多由你们来定义,以便更高效地组装和集成。那在软件层面,是否也会走类似路径?比如你提到的垂直整合和开源模型。

黄仁勋:我们会先“垂直地”把一整套东西做出来,然后再“水平地”开放出去,让大家可以按需使用其中的任何部分。

主持人:前提是他们运行在英伟达芯片上?

黄仁勋:他们可以用任何他们想用的部分,不一定非要用全部 英伟达 芯片,也不一定要用全部 英伟达 软件。

我们必须先做垂直整合、垂直优化,但完成之后,我们会开放源代码,提供能力,让大家自己决定怎么用。


主持人:那你觉得 英伟达 能一直在“前沿模型”这件事上保持竞争力吗?毕竟像 Meta 似乎有点掉队,而另一类替代方案,很多是中国模型。

黄仁勋:在那个领域“赢”对我们来说并不重要。

持人 不是说一定要赢,而是说:需要有人提供开源的前沿模型。如果不是你们,那会是谁?

黄仁勋:总得有人去做开源模型,而 英伟达 在这方面确实有能力。而且,每次我们做开源模型,我们也能从中学到很多关于计算本身的东西。

主持人:那 Blackwell 当时是不是遇到了一些问题?我听说训练过程可能比以前更困难。

黄仁勋:Blackwell 的挑战 100% 来自 NVLink 72,这部分工作非常艰难。那是我唯一一次在发布会上特意感谢大家和我们一起扛过来的。

主持人:我当时注意到你说那句话,非常真诚。

黄仁勋:是的,因为我们确实把大家“折腾”得够呛,但现在大家都很喜欢这个成果。


主持人:你会担心业务铺得太开吗?还是说你们依然有类似 CUDA 的“飞轮效应”——看似在做很多事,本质上是在不断复用同一套方法?

黄仁勋:英伟达 之所以能行动这么快,是因为我们始终有一套统一的理论。

这也是我的工作:明确什么是重要的,这些事情如何彼此关联,并构建一个能够高效执行的组织。

这套统一理论其实很简单:一方面,我们拥有计算与软件平台,也就是 CUDA-X;另一方面,我们是一家计算系统公司,通过全栈的垂直优化和极致协同设计(co-design)来打造系统。

这个“计算机”本身就成为我们的平台,我们再把它集成进各类云厂商和 OEM 体系中。现在,我们还在构建新的平台:数据中心平台,也就是 AI 工厂。

一旦理解了 英伟达 在做什么、以及如何去做,这一切就会变得清晰。而我在这次 keynote 中,其实也是在讲这个故事。某种程度上,也是讲给我们自己的员工听。

参考链接:https://stratechery.com/2026/an-interview-with-英伟达-ceo-jensen-huang-about-accelerated-computing/

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

会议推荐

OpenClaw 出圈,“养虾”潮狂热,开年 Agentic AI 这把火烧得不可谓不旺。在这一热潮下,自托管 Agent 形态迅速普及:多入口对话、持久记忆、Skills 工具链带来强大生产力。但这背后也暴露了工程化落地的真实难题——权限边界与隔离运行、Skills 供应链安全、可观测与可追溯、记忆分层与跨场景污染、以及如何把 Agent 纳入团队研发 / 运维流程并形成稳定收益。

针对这一系列挑战,在 4 月 16-18 日即将举办的 QCon 北京站上,我们特别策划了「OpenClaw 生态实践」专题,将聚焦一线实践与踩坑复盘,分享企业如何构建私有 Skills、制定安全护栏、搭建审计与回放机制、建立质量 / 效率指标体系,最终把自托管 Agent 从可用的 Demo 升级为可靠的生产系统。

今日荐文

图片
你也「在看」吗?👇

黄教主这个观点我赞同,现在动不动就上千亿参数的大模型,耗电量确实惊人。我觉得对于开发者来说,除了关注算法层面的优化,还可以从以下角度入手:

1. 模型压缩与量化: 尝试使用模型压缩和量化技术,减少模型大小和计算复杂度,降低能耗。
2. 边缘计算: 将一部分计算任务放到边缘设备上进行,减少数据传输和中心服务器的压力。
3. 绿色AI框架: 关注一些新兴的绿色AI框架,这些框架通常会提供一些节能的工具和方法。

混合架构是肯定的,单一架构很难解决所有问题。我觉得未来的趋势可能是:

* Transformer + X: Transformer作为核心,结合其他模块(如记忆模块、知识图谱等)来增强特定能力。
* 模块化设计: 模型像乐高积木一样,可以根据任务需求灵活组合不同的模块。
* 神经符号结合: 将神经网络和符号推理结合起来,实现更强的逻辑推理能力。
* 自适应架构: 模型可以根据输入数据和任务目标,动态调整自身的结构和参数。

总之,未来的AI模型架构会更加复杂和多样化,更加注重通用性和可解释性。

这个提法很有意思!电力瓶颈绝对是未来AI发展的重要制约因素。对于数据中心而言,这意味着:

* 更高效的散热技术: 比如液冷散热,甚至相变散热等,需要降低散热成本,提高散热效率才是关键。
* 智能化的能源管理: 利用AI优化电力分配,降低能源浪费。
* 可再生能源的应用: 更多地采用太阳能、风能等可再生能源。

对于开发者而言,可以关注以下方向:

* 开发更节能的算法: 优化模型结构,减少计算量。
* 研究低功耗硬件: 关注新型计算架构,如存算一体等。
* 参与开源节能项目: 为开源社区贡献代码,共同推动AI节能技术的发展。

总的来说,从软件到硬件,都有很多机会可以参与到AI节能的浪潮中来。

我觉得除了架构上的创新,训练方式也会发生改变。现在主流的训练方式还是基于大量数据的“暴力”训练,未来可能会更加注重“小样本学习”和“终身学习”,让模型能够像人一样,从少量数据中快速学习,并不断积累知识。

“token越聪明,你就能卖得越贵”,这句话我理解的“聪明” 应该理解为token所代表的信息对用户的“效用”。

效用可以有很多维度,诸如信息量、准确性、时效性、相关性、稀缺性、甚至是情感价值,只有对用户有用的token,用户才愿意付费。而且,这个“效用”是相对的,对A用户有用的token,对B用户可能就毫无价值。因此,如何根据用户画像,提供个性化的token,才是提升token价值的关键。

楼上两位说的都很有道理。我补充一点,token的"价值"也取决于它所能解锁的后续操作或者价值链。举个例子,如果一个token能直接触发智能合约,完成支付或者数据共享,那它的价值肯定比单纯的信息token高得多。实际上可以理解为token在整个系统中扮演的角色越重要,它的价值就越高。

我比较关注“神经形态计算”这个方向。Transformer本质上还是基于冯诺依曼架构的,在处理某些任务时效率不高。神经形态计算模仿人脑的工作方式,具有低功耗、高并行等优点,可能在未来的AI模型架构中发挥重要作用。

Transformer的局限性确实很明显。下一代AI模型可能在以下几个方面取得突破:一是更有效的记忆机制,能够处理更长的上下文信息;二是更强的推理能力,能够理解物理世界和逻辑关系;三是更好的泛化能力,能够适应更复杂的任务。混合架构是一种可能的方向,但也可能出现全新的架构。

Token的价值,我觉得还得看场景。在某些需要创造力的场景下,token的价值可能体现在它能激发多少灵感;而在一些对准确性要求高的场景下,token的价值就体现在它能多大程度避免错误。所以,Token的价值是动态的,取决于具体的应用需求。

没错,现在AI竞争已经不是单打独斗的时代了。创业公司想要突围,光靠一个酷炫的算法是不够的,必须考虑如何将算法融入到整个AI生态中。比如,可以专注于开发易于集成、可定制化的AI组件,成为AI生态中的重要一环。

确实,Transformer在处理超长文本时,效率会显著下降。我感觉未来AI模型可能会向着更模块化、更层次化的方向发展,不同的模块负责不同的任务,比如专门的记忆模块、推理模块等。这样既能提高效率,也能增强模型的可解释性。

或者可以参考人脑的结构,人脑在处理复杂问题时,会调用不同的脑区协同工作。未来的AI模型也可以借鉴这种思想,将不同的模型组合起来,形成一个更强大的系统。

老黄的这个观点非常值得关注。如果电力成为AI发展的瓶颈,那意味着我们必须更加重视能效比,提高单位功耗下的计算能力。这会倒逼芯片设计和算法优化,比如开发专用AI芯片、研究更高效的训练方法等。另一个可能的影响是,边缘计算会变得更加重要,因为在本地进行推理可以减少数据传输,降低对数据中心的需求。

说不定以后“每度电的智商”会成为衡量AI公司实力的一个重要指标呢!

Transformer 确实有局限性,但我认为它在一段时间内仍然会是主流。未来的方向可能是 Transformer 的各种变体,例如Sparse Transformer、Longformer等,它们通过改进注意力机制来提高处理长序列的能力。另外,多模态融合也是一个重要的方向,将 Transformer 与其他模型(例如 CNN、RNN)结合起来,可以更好地处理复杂的任务。

电力要是真成瓶颈,那可就热闹了。先是AI训练成本飙升,接着各家公司为了省电,肯定开始“军备竞赛”,看谁家的算法更省电,谁家的芯片能效比更高。小公司可能直接被淘汰,大公司也得勒紧裤腰带过日子。说不定以后AI都得按用电量收费,用不起就只能用“乞丐版”AI了,手动滑稽.jpg。

AI工厂,说白了就是英伟达想把整个AI产业链都攥在手里。数据中心是“毛坯房”,AI工厂是“精装修”,里面啥都有,拎包入住。以后大家搞AI,不用自己搭环境、调参数,直接在英伟达的AI工厂里“租用服务”就行了。当然,前提是你得用英伟达的芯片和软件,嘿嘿。

如果电力真的成为瓶颈,那可能意味着算力会变得更加昂贵,进而影响AI的普及。一些需要大量算力的AI应用,比如自动驾驶、大规模语言模型等,可能会受到限制。同时,这也可能导致AI领域的创新方向发生转变,大家会更加关注小模型、低功耗算法的研究。

当然,从另一个角度看,电力瓶颈也可能促进新能源的发展,比如核聚变、太阳能等,从而为AI提供更可持续的能源。

我是个程序员,我觉得这种模式挺好的。有统一的标准和工具链,开发效率肯定高。而且,英伟达的技术实力毋庸置疑,跟着他们走,至少不会掉队。当然,如果能更开放一些,让大家参与进来,一起完善这个技术栈,那就更好了。

针对“英伟达正在构建AI工厂,这个“AI工厂”具体包含哪些要素?”,我的理解是:AI工厂不仅仅是硬件设施,而是一个集成了硬件、软件、数据和生态的全方位平台。具体来说,它可能包括:

* **硬件基础设施:*包括GPU、CPU、网络、存储等高性能计算资源,以及电力、冷却等配套设施。
**软件平台:*包括CUDA、cuDNN等底层计算库,以及AI模型开发、训练、推理工具。
**数据资源:*包括用于模型训练的各种数据集,以及数据处理和管理工具。
**生态系统:**包括开发者社区、合作伙伴、云服务提供商等,共同构建AI应用的生态。

黄仁勋所说的“用全栈协同设计,把‘计算平台’变成绕不开的基础设施”意味着英伟达希望通过软硬件的深度整合和优化,打造一个性能卓越、易于使用、高度定制化的AI计算平台,从而成为AI应用开发和部署的基础设施,就像水电煤一样不可或缺。

我觉得数据安全和隐私可能是更大的瓶颈。现在大家都在用AI,但是数据泄露的风险也越来越高。企业在使用AI的同时,一定要注意保护用户数据,否则可能会面临严重的法律风险和声誉损失。另外,算法的公平性也很重要,要避免AI模型出现歧视性的结果。