黄仁勋GTC2025演讲完整内容AI工厂代理机器人以及3年发展路径
今年的主题: AI Factory (工厂) 以及 Tokens(令牌)。
图: GTC 2025主题演讲开场预告
在NVIDIA的世界中,令牌是AI计算的基本单位(也是客户可以收费的单位)。
“令牌不仅教会机器人如何移动,还教会它们如何带来欢乐。”
“这里是一切开始的地方。”
图: GTC 2025 Jensen在台上
“今年,我们想带你去NVIDIA的总部。”
“我们有很多令人难以置信的事情要讨论。”
Jensen特意让观众知道,他没有使用脚本或提词器进行演讲。
“GTC始于GeForce。”
Jensen手里拿着GeForce RTX 5090,以及一个RTX 4090进行比较。
图: GeForce RTX 5090
Jensen展示了一个路径追踪环境——其中包含大量的AI,用于提供上采样(upscaling)、去噪等功能。
“生成式AI从根本上改变了计算的方式。”
图: AI增长
AI现在具有了代理能力——Jensen称之为“ 代理AI”(Agentic AI)。 模型可以从网站检索内容,既作为训练,也作为更即时的信息检索。
Jensen表示,他们今天还将讨论很多关于推理AI的内容。
以及“物理AI”,使用AI来帮助模拟和训练其他AI模型。
“让GTC变得更大的唯一方法是扩大圣何塞(San Jose)的规模。我们正在努力!”
每年,越来越多的人来参加GTC,因为AI能够为更多的人和公司解决问题。
三个基本的缩放定律(Scaling Law):
图: AI缩放定律
预训练缩放、后训练缩放和测试时缩放。如何创建、如何训练以及如何缩放?
缩放(Scaling):这是去年几乎整个世界都搞错的地方。由于推理,我们需要的计算量比世界去年认为的要多100倍。
图: 带有推理的缩放定律
现在我们有了能够通过链式思维和其他技术逐步推理的AI。但生成令牌的基本过程没有改变。相反,这种推理需要更多的令牌——明显更高,“轻松高出100倍”。
为了保持模型的响应速度,每秒所需的计算量也同样高。
强化学习是过去几年的重大突破。给AI数百万个不同的示例来逐步解决问题,并在它做得更好时给予奖励(强化)。这相当于数万亿个令牌来训练该模型。换句话说: 生成合成数据来训练AI。
Jensen表示,这已被行业通过硬件销售所接受。
Hopper的出货量位居云服务提供商之首。Hopper的峰值年份与Blackwell的第一年相比。
图: Hopper与Blackwell的销售情况
仅一年时间——而Blackwell才刚刚开始出货——NVIDIA报告了企业GPU销售的显著增长。
Jensen预计数据中心的建设将很快达到万亿美元的规模。
图: 计算收入
Jensen认为我们正在看到数据中心建设的拐点,转向加速计算(即GPU和其他加速器,而不仅仅是CPU)。
“ 计算机已经成为令牌的生成器,而不是文件的检索器”。这就是NVIDIA所说的AI工厂 。
虽然数据中心的一切都将被加速,但并非所有都将是AI。
▍ NVIDIA CUDA-X
图: NVIDIA CUDA-X
你还需要用于物理学、生物学和其他科学领域的框架。所有这些NVIDIA都已经作为其CUDA-X库的一部分提供。cuLitho用于计算光刻,cuPynumeric用于数值计算,Aerial用于信号处理等。这是NVIDIA在更广泛行业中的“护城河”。
“ 我们将在GTC举办第一次量子日 ”就在星期四。
“CUDA的安装基础现在无处不在”。通过使用这些库,开发人员的软件可以触及每个人。
Blackwell比第一个CUDA GPU快50,000多倍。
“我热爱我们所做的工作。 我更热爱你们用它所做的事情。 ”
图: 每个行业的AI
CSP(云服务提供商)喜欢CUDA开发人员是他们的客户。
但现在他们将把AI带到世界的其他地区,情况正在发生变化。GPU云、边缘计算等都有自己的要求。
在NV的许多较小公告中,几家公司(Cisco、T-Mobile等)正在使用NVIDIA的技术(Ariel-Sionna等)在美国构建完整的无线电网络堆栈。
但这只是一个行业。还有自动驾驶汽车。AlexNet说服NVIDIA全力投入自动驾驶汽车技术。现在他们的技术正在全世界范围内使用。NVIDIA为训练、模拟和自动驾驶汽车计算机构建计算机。
NVIDIA宣布,GM(通用汽车)将与NVIDIA合作,构建他们未来的自动驾驶汽车车队。
“自动驾驶汽车的时代已经到来。”
NVIDIA已经让第三方评估了所有700万行代码的安全性。安全性似乎是NVIDIA今年汽车努力的关键字。
图: 自动驾驶汽车训练循环
数字孪生、强化学习、生成多样化场景等。所有这些都围绕NVIDIA Cosmos构建。使用AI来创建更多的AI。
▍ 数据中心
现在进入数据中心。
图: Grace Blackwell全面生产
Grace Blackwell现在已经全面生产。Jensen展示了其合作伙伴提供的各类机架系统。
NVIDIA花费了很长时间研究分布式计算——如何进行纵向扩展(Scale up),然后如何进行横向扩展(Scale out)。扩展是困难的;因此,NVIDIA必须首先通过HGX和8路GPU配置进行扩展。
图: HGX和Blackwell
Jensen展示了一个NVL8系统是如何构建的,重点强调了过去。
为了超越这一点,NVIDIA必须重新设计NVLink系统的工作方式,以进一步扩展。 NVIDIA将NVLink交换移出机箱,并将其移动到一个机架单元设备中。“分散式NVLink”
图: NVLink分散式交换
现在NVIDIA可以在 一个机架中提供一个ExaFLOP(低精度)。
图: Blackwell GPU
Blackwell GPU已经在推动光罩(reticle)限制,所以NVIDIA通过 转向现在基本上是机架级系统而不是单个服务器来扩展。
所有这些都是为了帮助为AI提供计算性能。而不仅仅是为了训练,还为了推理。
图: 推理性能曲线
Jensen展示了一个针对大型规模计算的推理性能曲线。简而言之,它是总吞吐量和响应速度之间的平衡。保持系统饱和将最大化令牌吞吐量,但生成单个令牌将需要很长时间。如果时间太长,用户将转向其他地方。
这是经典的延迟与吞吐量之间的权衡。
因此,对于NVIDIA的CSP合作伙伴和其他使用NV硬件进行推理的客户来说,为了最大化他们的收入,他们需要仔细选择曲线上的一个点。通常,理想点将位于上方和右侧——在不显著牺牲一个以换取另一个的微小改进的情况下,获得最大的吞吐量和响应速度。
所有这些都需要FLOPS、内存带宽等。因此,NVIDIA构建了硬件来提供这些。
现在播放另一个视频,展示推理模型的实用性和计算需求。
图: AI推理
在NVIDIA的用例中,一个传统的LLM(大型语言模型)快速、高效但错误。439个令牌被浪费。推理模型可以处理它,但它需要超过8,000个令牌。
使所有这些具有高性能不仅需要大量的硬件,还需要大量的优化软件,一直到操作系统,以处理基本优化,如批处理。
预填充(prefill)——消化信息(digesting information)——非常消耗FLOPS。下一步,解码(decode),是内存带宽密集型的,因为模型需要从内存中拉取;数万亿个参数。所有这些都是为了生成1个令牌。
这就是为什么你想要NVLink。将许多GPU变成一个巨大的GPU。
然后这允许进一步优化。多少GPU将用于预填充与解码?
▍ Nvidia Dynamo:AI 工厂的操作系统
公告:NVIDIA Dynamo,一个分布式推理服务库。AI工厂的操作系统。
图: NVIDIA Dynamo
Jensen将Dynamo与VMWare进行比较,就其范围而言。 而VMWare是针对CPU系统布局的,Dynamo是针对GPU系统布局的。
Dynamo是开源的。
现在回到硬件和性能。Jensen正在比较一个NVL8 Hopper设置与Blackwell。每秒令牌数与每兆瓦特令牌数的对比。
“只有在NVIDIA,你才会被数学折磨。”
对于服务提供商来说,随着时间的推移,大量的令牌转化为大量的收入。记住吞吐量与响应速度之间的权衡。这是NVIDIA试图弯曲的曲线。
Blackwell通过更好的硬件和对较低精度数据格式(FP4)的支持来改进这一点。使用更少的能量做与以前相同的事情,以便做更多的事情。
“每个未来的数据中心都将受到功率限制。”“我们现在是一个受功率限制的行业。”
图: NVIDIA Dynamo性能曲线
Dynamo帮助使Blackwell NVL72甚至更快。这是在等功率下,而不是等芯片下。在一代产品中提高了25倍。
图: 性能曲线点
现在谈论帕累托前沿(pareto frontier)和帕累托最优性,以及各种模型配置如何在曲线上击中不同的点。
而在其他情况下,Blackwell可以达到Hopper(等功率)性能的40倍。
“我是首席收入破坏者。”“在某些情况下,Hopper是可以的。”
图: Hopper与Blackwell的令牌收入
就是这样: “你买得越多,你节省得越多。”“你买得越多,你赚得越多。”
▍ Nvidia Omniverse
播放另一个视频。这次谈论NVIDIA如何为所有事物构建数字孪生,包括数据中心。(在NV的世界里,它只是另一个工厂,毕竟)

Omniverse数据中心蓝图
最终,使用数字孪生允许所有这些在提前计划和优化后,最终快速构建一次。
图: Blackwell Ultra NVL72
Blackwell Ultra NVL72,计划于今年下半年开始出货。1.1 Exaflops密集FP4推理。网络带宽增加2倍。20TB的HBM系统内存。以及一个新的注意力指令,应该会将性能提高一倍。
该行业现在已经到了需要计划支出的地步。公司正在对硬件、设施和NVIDIA的生态系统做出多年承诺。这就是为什么Jensen希望使NVIDIA的路线图清晰的原因。
▍ Vera Rubin
在Blackwell之后是Vera Rubin,她发现了暗物质。
图: Vera Rubin
Vera Rubin NVL144,计划于2026年下半年推出。Vera Arm CPU + Rubin GPU。
从现在开始,当谈论NVLink域时,NVIDIA将计算GPU芯片而不是单个GPU芯片。所以NVL144是144个芯片,而不是144个芯片。
图: Rubin Ultra NVL576
然后是Rubin Ultra NVL576,计划于2027年下半年推出。600KW用于一个机架。15 ExaFLOPs。每个GPU包1TB HBM4e内存。
图: NVIDIA Rubin扩展
图: AI工厂经济学
Rubin将显著降低AI计算的成本。
这就是扩展。现在是时候谈论扩展和NVIDIA的网络产品了。
▍ 网络产品
Jensen正在回顾了NVIDIA决定购买Mellanox并进入网络市场的情况。
图: NVIDIA Spectrum-X
CX-8和CX-9即将推出。NVIDIA希望在Rubin时代扩展至数十万个GPU。
扩展意味着数据中心的大小相当于一个体育场。铜连接是不够的。需要光纤(Optical)连接。而光纤连接可能非常耗能。所以NVIDIA计划通过共同封装的硅光子学(silicon photonics)使光学网络更高效。
图: NVIDIA光子学
基于一种称为微环调制器(MRM)的技术。在TSMC上构建,使用他们与工厂合作开发的一种新型3D堆叠工艺。
图: Jensen The Cable Guy
(解开电缆)“哦,天哪”
Jensen正在谈论当前的光学网络如何工作,每侧都有单独的收发器用于每个端口。这是可靠和有效的,但在电气到光学转换(以及返回)中会消耗大量电力。
“每个GPU将有6个收发器”。这将消耗180瓦(每个30瓦)和数千美元的收发器。
所有由收发器消耗的功率都是无法用于GPU的功率。这阻止了NVIDIA向客户销售更多的GPU。
图: 多环模块(MRM)
在TSMC上使用COUPE进行封装。
现在播放另一个视频,更详细地展示光子学系统如何工作。
图: 光子学激光器
NVIDIA将在2025年晚些时候推出一个硅光子学Quantum-X(InfiniBand)交换机,然后在2026年下半年推出一个Spectrum-X(以太网)交换机。
没有收发器——直接光纤连接。Spectrum-X交换机最多可有512个端口。
节省6 MW相当于一个数据中心可以添加10个Rubin Ultra机架。
图: NVIDIA路线图
每年一个新平台。
Rubin之后的下一代GPU?传奇人物Richard Feynman。
现在转向系统(System) 。
到今年年底,100%的NVIDIA软件工程师将得到AI的协助。我们需要一条新的计算机生产线。
宣布DGX Spark。这是NVIDIA之前宣布的Project DIGITS迷你PC的最终名称。
图: NVIDIA DGX Spark
DGX Spark和DGX Station。
图: DGX Station
还加速了存储。NVIDIA一直在与所有主要存储供应商合作。
图: GPU加速存储
Dell将提供一系列基于NVIDIA的系统。
▍ Llama Nemotron
NVIDIA还宣布了一个新的开源模型:NVIDIA Nemo Llama Nemotron推理。
图: Llama Nemotron
现在快速浏览所有NVIDIA的客户,他们正在将NVIDIA技术集成到他们的框架中。
▍ 机器人
现在进入机器人领域。
“世界严重缺乏人类工人”
图: NVIDIA机器人期望
接下来播放关于机器人的视频。 这些机器人将通过AI模拟物理世 界进行训练。
图: NVIDIA机器人工作流
图: 人类机器人训练
这个视频的很大一部分是回顾NVIDIA之前讨论过的内容。使用数字孪生创建一个虚拟设施,以帮助训练机器人。(当机器人在虚拟世界中犯错时,不会有任何东西被打破)
介绍NVIDIA Isaac GROOT N1。
图: NVIDIA Isaac GROOT N1
图: Groot N1模拟
“ 物理AI和机器人技术发展如此之快。每个人都要注意这个领域。这很可能是最大的行业。”
Jensen正在总结Omniverse + Cosmos模拟如何工作。使用Cosmos创建各种环境以帮助训练。
在机器人技术中,什么是可验证的奖励?物理学。如果一个机器人以物理上正确的方式行为,那么这可以被验证为准确的。
现在播放另一个视频,这次是一个名为Newton的新物理引擎。
图: Newton物理引擎
图: Newton演示片段
图: “Blue”机器人
从数字到真实。视频中的机器人,Blue,是一个真实的机器人。
“让我们结束这个主题演讲。现在是午餐时间”
今天还宣布Groot N1是开源的。
现在来总结一下。
图: GTC 2025总结
Blackwell正在加速, 但NVIDIA已经在关注2025年晚些时候的Blackwell Ultra,2026年的Vera Rubin,2027年的Rubin Ultra,以及2028年的Feynman。
就是这样。
▍ 最后的话
虽然NVIDIA的关键GPU业务部分目前显然处于中期,但GTC 2025清楚地表明,这并没有阻止公司其他部分全速前进。展望一个世界,该公司预计由于计算密集型的推理模型,对AI硬件的需求将增长更多,NVIDIA正在硬件和软件方面向前推进,以提供新的工具和更好的性能。并最终实现更高的能源效率,因为业务正变得基本上受能源限制。
在硬件方面,虽然Blackwell在技术上仍在加速,但NVIDIA已经在关注下一步。对于2025年下半年,这将是更大更好的B300 Blackwell Ultra GPU,这是Blackwell家族的一个中期提升,预计将提供改进的性能。来自NVIDIA的细节仍然很少,但它的主要卖点是,对于单个GPU包,FP4性能提高50%(15TFLOPS),并支持288GB的HBM3e内存,比B200 GPU提高50%。像它的前辈一样,这是一个双芯片,将两个“光罩大小”的GPU打包成一个单独的芯片。
Blackwell Ultra将用于构建一个更新的Grace Blackwell GB300超级芯片,这将用于进一步的NVIDIA产品,最显著的是Blackwell Ultra NVL72机架级系统,以增强NVIDIA当前的GB200 NVL72产品。
同时,NVIDIA还提供了公司未来硬件计划的新鲜路线图,将其延长至2028年。承认NVIDIA现在是一个大公司,客户需要对公司的硬件和产品线进行巨大的投资,NVIDIA现在旨在在他们的未来硬件计划上更加透明——至少在产品名称和一些非常基本的规格上非常高层次。
为此,在2026年下半年,我们将看到NVIDIA的下一代Arm CPU的发布,代号为Vera,而GPU方面将提供Rubin GPU架构。2027年底将看到Rubin家族通过Rubin Ultra进行刷新,这是一个4芯片GPU。而2028年将看到Vera CPU与基于新宣布的Feynman GPU架构的GPU配对,这将使用下一代(后HBM4e?)内存技术。
至于NVIDIA的网络业务,前Mellanox集团将通过将共同封装的硅光子学引入NVIDIA的交换机来增强NVIDIA的AI努力。旨在通过放弃专用的光学收发器来减少网络所需的功率量,NVIDIA将使用硅光子学更直接地驱动所需的激光器。2025年下半年将推出一个Quantum-X(InfiniBand)交换机,而2026年下半年将带来一对使用该技术的Spectrum-X(以太网)交换机。总体而言,NVIDIA预计客户将能够重新投资其硅光子学交换机所节省的功率,以购买和安装更多的GPU系统。
最后但并非最不重要的是,NVIDIA在展会上有几个软件公告。Dynamo承诺帮助在大型GPU系统上平衡和优化推理的执行,帮助NVIDIA的服务提供商客户在吞吐量和响应速度之间取得平衡,以最大化他们从其按需GPU服务中获得的工作量和收入。同时,其他产品如GR00T N1和Llama Nemotron推理旨在分别针对机器人和AI社区。


共有 0 条评论