马斯克首次亮相特斯拉的5万个英伟达H100超级集群

马斯克首次亮相特斯拉的5万个英伟达H100超级集群-3

埃隆·马斯克本周在超级计算领域的探索又向前迈出了一大步,他分享了一段视频,展示了他新近重新命名的“Cortex”人工智能超级集群。这个位于特斯拉“Giga Texas”工厂的最新扩建项目将容纳70,000台AI服务器,并在启动时需要130兆瓦的冷却和电力,预计到2026年将增至500兆瓦。

视频中,Cortex超级集群正在组装的服务器机架数量令人震惊。从模糊的画面中可以看到,机架似乎以每行16个计算机架的阵列排列,大约有四行非GPU机架将各行分隔开。每个计算机机架可以容纳8个服务器。在20秒的视频片段中,可以看到大约16-20行的服务器机架,粗略估计大约有2,000个GPU服务器,这还不到预计全面部署规模的3%。

在特斯拉7月的财报电话会议上,马斯克透露Cortex超级集群将是公司迄今为止最大的训练集群,包含“50,000个Nvidia H100s,以及20,000个我们自己的硬件”。这比他在6月推文中提到的数字要少,当时他预计Cortex将配备50,000个特斯拉的Dojo AI硬件单元。特斯拉CEO之前的发言也暗示,公司自己的硬件将在稍后推出,预计Cortex在启动时将完全依赖Nvidia。

Cortex训练集群的建设目标是“解决现实世界的AI问题”,正如马斯克在推特上所言。在特斯拉2024年第二季度的财报电话会议上,这意味着训练特斯拉的全自动驾驶(FSD)系统——这将为消费者特斯拉汽车和即将推出的“Cybertaxi”产品提供支持——以及训练Optimus机器人的AI,这是一种预计在2025年开始小规模生产的自主仿人机器人,将被用于特斯拉的制造流程中。

Cortex之所以引起媒体关注,是因为其正在建设中的庞大风扇系统,这些风扇用于冷却整个超级集群,马斯克在6月展示了这一系统。风扇堆叠为超微(Supermicro)提供的液体冷却解决方案提供冷却,该解决方案设计用于最终处理500兆瓦的冷却和电力需求。作为对比,一个普通的燃煤电厂的发电量大约为600兆瓦。

Cortex加入了马斯克正在开发的超级计算机系列。到目前为止,马斯克数据中心中第一个投入运营的是Memphis超级集群,由xAI拥有,配备了100,000个Nvidia H100s。Memphis的所有100,000台服务器都通过单一的RDMA(远程直接内存访问)网络连接,并同样得到了Supermicro的冷却技术支持。马斯克还宣布了在纽约州布法罗投资5亿美元建设Dojo超级计算机的计划,这也是特斯拉的一个项目。

Memphis超级集群还计划将其H100基础升级至300,000个B200 GPU,但由于Blackwell生产过程中的设计缺陷导致的延误,这个庞大的订单被推迟了几个月。作为Nvidia AI GPU的最大单一客户之一,马斯克似乎正在遵循Jensen Huang的CEO策略:“买得越多,省得越多。”时间将证明这一策略是否适用于马斯克和他的超级计算机系列。

点这里👇,记得标星哦~

点个 在看 你最好看

CLICK TO SEE YOU LOOK THE BEST

预览时标签不可点

阅读

微信扫一扫关注该公众号

知道了

微信扫一扫使用小程序

取消 允许

取消 允许

取消 允许

×

分析

微信扫一扫可打开此内容,使用完整服务

: , , , , , , , , , , , , 。 视频 小程序 赞 ,轻点两下取消赞 在看 ,轻点两下取消在看 分享 留言 收藏 听过

THE END
分享
二维码
< <上一篇
下一篇>>