英伟达在越南建立人工智能(AI)研发中心和数据中心

2024-12-06

周四，越南总理范明政与英伟达 NVDA总裁兼首席执行官黄仁勋共同见证了在越南建立人工智能(AI)研发中心和AI数据中心的合作协议的签署。

河内街头

周四晚上，总理范明政和Nvidia CEO黄仁勋在河内分享啤酒和街头美食，庆祝AI中心的合作并加强越南的全球科技联系。

大约晚上10点，一行前往Ta Hien街，这是当地人和游客享用价格实惠的饮品（尤其是新鲜啤酒）和各种街头美食的热门地点。

这位Nvidia创始人身着标志性的休闲T恤和黑色牛仔裤，沿着Ta Hien街行走，欢呼并挥手回应当地人的热情问候。

这不是黄仁勋第一次访问河内的街头美食场所。去年12月，他在越南的第一天也进行了“美食之旅”，品尝了河粉、蜗牛和啤酒。

Rubin来袭

全球AI行业无比期待的英伟达(NVDA)下一代AI GPU架构——“Rubin”架构，可能将提前六个月，即2025年下半年正式发布。

虽然Blackwell架构AI GPU仍未大规模发货且被爆出面临散热问题，但英伟达似乎坚定加速其AI GPU发展路线图，面对AMD、亚马逊以及博通等AI芯片竞争对手发起的猛烈攻势，这家“绿色巨人”试图强化它在数据中心AI芯片市场的绝对主导地位。

英伟达当前在该市场堪称“垄断”，占据80%-90%份额。

尽管Blackwell架构AI GPU可能明年第一季度才能在台积电、鸿海、纬颖以及纬创等众多核心供应商齐心协力之下实现大规模量产，但是随着谷歌、亚马逊等云巨头自研AI芯片浪潮席卷而来，英伟达现在比以往任何时候都更加致力于在数据中心AI芯片市场中保持主导地位。对于英伟达股东们来说，他们也需要新的催化剂推动英伟达股价向200美元发起冲击。

包括OpenAI以及微软在内的众多AI行业领军者，以及摩根士丹利等华尔街投行们已经开始讨论英伟达下一代架构Rubin的性能将如何强大。一些产业链分析人士认为依托共同封装光学(CPO)技术以及HBM4，加之台积电3nm以及下一代CoWoS先进封装所打造的Rubin架构AI GPU堪称“史无前例的性能”，有可能开启AI算力全新纪元，竞争对手们可能需要耗费数年时间来进行追赶。

Rubin架构的产品线明年下半年推出

根据产业链知情人士透露的消息，英伟达Rubin架构的产品线原定于2026年上半年推出，现已要求供应链开启提前测试工作，力争提前至2025年下半年正式推出。

由于OpenAI、Anthropic、xAI以及Meta等人工智能、云计算以及互联网大厂们对于AI训练/推理算力几乎无止境的“井喷式需求”，迫使英伟达以更快速度推出性能更高、存储容量更庞大、推理效率更强大且更加节能的下一代AI GPU的研发进程。

虽然英伟达官方未进行回复，但是从存储芯片制造巨头SK海力士(SK Hynix)上月初透露的可能提前生产交付HBM4的消息来看，关于Rubin消息的真实性非常高。HBM通过3D堆叠存储技术，将堆叠的多个DRAM芯片全面连接在一起，通过微细的Through-Silicon Vias(TSVs)进行数据传输，从而实现高速高带宽的数据传输，使得AI大模型能够24小时不间断地更高效地运行。

据了解，SK集团董事长崔泰源在11月初接受采访时表示，英伟达首席执行官黄仁勋要求SK海力士提前六个月推出其下一代高带宽存储产品HBM4。

作为英伟达H100/H200以及近期开始生产的Blackwell AI GPU的最核心HBM存储系统供应商，SK海力士一直在引领全球存储芯片产能竞赛，以满足英伟达、AMD以及谷歌等大客户们满足对HBM存储系统的爆炸性需求以及其他企业对于数据中心SSD等企业级存储产品的需求，这些存储级的芯片产品对于处理海量数据以训练出愈发强大的人工智能大模型以及需求剧增的云端AI推理算力而言堪称核心硬件。

在关于Rubin的最新消息出炉之前，英伟达目前正处于“一年一代际”的AI GPU架构更新节奏中，这意味着该公司每年都会发布新一代架构的数据中心AI GPU产品，这就是为什么Ampere、Hopper和Blackwell架构之间都有长达一年的间隔;然而，对于Rubin，这种情况可能彻底改变。

Blackwell架构AI GPU系列产品，毫无疑问是当前AI算力基础设施领域的“性能天花板”。在Blackwell出炉前，Hopper也一度被视为算力天花板，而在CPO以及3nm、相比于HBM3E性能大幅增强的HBM4，加之下一代CoWoS加持下，暂不考虑Rubin本身的基础架构升级，Rubin芯片性能可能已经强到无法想象。

对于英伟达业绩预期来说，Rubin或将推动华尔街大幅上调2026年基本面展望。

作为基准对标，Blackwell性能已经比Hopper强劲得多，在MLPerf Training基准测试中，Blackwell在GPT-3预训练任务中每GPU性能比Hopper大幅提升2倍。

这意味着在相同数量的GPU下，使用Blackwell可以更快地完成模型训练。对于Llama 2 70B模型的LoRA微调任务，Blackwell每GPU性能比Hopper提升2.2倍，这表明Blackwell在处理特定高负载AI任务时具备更高的效率。MLPerf Training v4.1中，图形神经网络以及Text-to-Image基准测试方面，Blackwell每GPU性能比Hopper分别提升2倍以及1.7倍。