英伟达GTC 2025:Blackwell Ultra GPU发布,AI推理时代来临
美国时间3月18日,英伟达在美国圣何塞举办年度GTC(GPU技术大会)。 作为全球最受瞩目的科技盛会之一,今年的GTC吸引了约2.5万名观众线下参会,另有30万人通过线上直播收看。
英伟达CEO黄仁勋在主题演讲中表示:“随着AI技术的爆发,GTC的规模也在逐年扩大。去年,有人称GTC是AI行业的‘伍德斯托克音乐节’,今年我们搬进了体育场——GTC已成为AI领域的‘超级碗’。”
本次大会上,英伟达发布了一系列重磅新品,包括Blackwell GPU、硅光交换机、机器人模型等。与此同时,黄仁勋在演讲中反复强调,随着AI行业整体训练需求的放缓,以及DeepSeek在模型推理领域的创新突破,AI推理时代即将到来。
然而,在演讲结束后,英伟达股价收跌超3.4%,收于115.43美元/股,盘后继续下跌0.56%。
Blackwell Ultra GPU:AI推理时代的“算力核弹”
作为本届GTC的重头戏,英伟达正式发布了新一代数据中心级AI GPU——NVIDIA Blackwell Ultra GPU。
此前有市场传闻称,英伟达曾考虑将Blackwell Ultra更名为B300,但最终官方仍沿用了原始命名。相较于上一代B200 GPU,Blackwell Ultra GPU的计算性能提升了50%,达到约15P FLOPS(基于低精度FP4浮点格式),并采用HBM3E高带宽存储,内存容量由192GB提升至288GB。
两大系统集成方案:GB300 NVL72 与 HGX B300 NVL16
基于Blackwell Ultra GPU,英伟达为云计算厂商及大型企业客户推出了两款系统解决方案:
GB300 NVL72——机架级解决方案,每个机架内集成72颗Blackwell B300 GPU和36颗基于ARM架构的Grace CPU,AI算力性能较上一代提升超50%。
HGX B300 NVL16——采用NVLink高速互联,连接8颗Blackwell Ultra GPU,专为大规模AI推理优化,相较于H100在大模型推理速度上提升11倍。
AI推理市场的加速布局
不同于A100、H100等主要用于AI模型预训练的产品,英伟达此次明确定位Blackwell Ultra为AI推理优化(AI-Reasoning),并兼顾训练及多场景AI应用。
在DeepSeek成功以极低算力成本完成模型开发后,市场一度担忧英伟达AI芯片的需求是否会放缓。对此,黄仁勋回应称,虽然AI厂商过去将大量算力投入模型训练,但推理仍然需要庞大的GPU计算资源和高性能网络。DeepSeek的创新不仅没有减少市场需求,反而证明了AI推理将催生更大规模的算力需求。
黄仁勋在演讲中强调,Blackwell GPU已全面投产,并透露英伟达正在推进下一代Rubin架构。预计Rubin GPU在FP4标准下的算力性能将达到50P FLOPS(约为Blackwell Ultra的3.3倍),Rubin Ultra GPU将达100P FLOPS,并搭载HBM4/ HBM4E存储,预计于2026-2027年陆续推出。
此外,英伟达还正式公布了2028年推出的全新架构——Feynman,该命名致敬物理学家理查德·费曼(Richard Feynman)。
Agentic AI与AI推理的算力挑战
今年GTC不同于往年密集发布新产品的节奏,黄仁勋在正式公布新品前,花费大量时间阐述“Agentic AI(智能体AI)”的概念,并探讨AI推理带来的巨大变革。
英伟达的AI技术发展路线图显示,AI技术的发展分为三个阶段:
Generative AI(生成式AI):以语言大模型(LLM)和聊天机器人为核心,专注于文本、图像生成。
Agentic AI(智能体AI):具备自主决策和执行能力,能够理解任务、进行复杂推理、制定计划并自主执行多步骤操作。
Physical AI(具身AI):赋能机器人,使其具备更强的环境理解和交互能力。
黄仁勋指出,生成式AI阶段的Scaling Law法则(“更大规模的模型=更智能的AI”)主要集中在模型训练阶段。但随着AI向Agentic AI演进,推理将成为新的核心动力,算力需求将远超训练阶段。
以AI模型的Token生成为例,Agentic AI的推理任务复杂度更高,可能涉及数百万乃至数十亿级别的Token处理量。随着用户访问量的激增,AI推理计算需求的增长远超100倍。
在现场演示中,Blackwell Ultra NVL72集群运行DeepSeek-R1 671B模型交互时,仅需10秒即可给出答案,而H100集群则需要90秒。
此外,英伟达发布了一款AI推理优化软件——Dynamo,该软件能够在数千颗GPU间协调推理计算,并通过分解任务,提高大模型推理效率。
黄仁勋预测,到2028年,全球数据中心投资规模将突破1万亿美元,远超此前的市场预期。
硅光交换机、机器人模型与量子计算研究中心
硅光网络交换机:突破超大规模数据中心瓶颈
英伟达此次发布了两款基于硅光技术的新型交换机:
NVIDIA Spectrum-X(基于以太网,适用于企业级网络)。
NVIDIA Quantum-X(基于InfiniBand,适用于高性能计算集群)。
这两款交换机采用“光电共封装技术”(CPO),将光通信直接集成到交换机芯片上,相比传统外挂式光模块,大幅降低数据传输延迟。英伟达计划于2026年正式推出Spectrum-X交换机。
GROOT N1机器人模型开源
英伟达宣布开源GROOT N1机器人基础模型。该模型采用双系统架构,一个系统负责理解环境与指令,另一个系统执行精确动作,以模拟人类认知过程。
此外,英伟达推出Omniverse 3D实时仿真平台,助力机器人开发者训练和测试智能体AI。
量子计算研究中心落地波士顿
英伟达还宣布将在波士顿设立加速量子研究中心(NVAQC),专注于量子计算架构与算法研究。
尽管量子计算仍面临技术挑战,黄仁勋强调,其目标并非取代传统计算,而是作为AI超级计算机的增强工具,在新材料、药物研发等特定领域发挥作用。
总结:AI推理时代全面到来
本届GTC不仅展示了Blackwell Ultra GPU的强大算力,也明确了AI行业未来的重点:推理将成为核心驱动力。
随着Agentic AI时代的到来,AI推理计算需求正迎来指数级增长,英伟达的GPU、网络和AI推理软件正在重塑整个计算生态。未来,随着Rubin、Feynman架构的推进,AI芯片的性能天花板仍在不断突破。
GPU的市场需求依然会很强劲一段时间,包括二手市场。如果你有闲置的GPU,you may sell gpu to save your business cost... If you want to learn more, check this blog post, where to sell GPU.