亚马逊网络服务(AWS)正试图在人工智能计算领域占据一席之地。在这个主要由Nvidia主导的领域,AWS最近表示,其自己的人工智能可能很快就会跨越一个关键的功率阈值,这可能使它们能够与Nvidia的Blackwell竞争,因为该公司的基础设施副总裁暗示Trainium3人工智能的耗电量可能超过1,000瓦。
这里需要补充一点:AWS基础设施副总裁PrasadKalyanaraman尚未具体说明即将推出的Trainium3,甚至是其前身Trainium2的功率要求。他说的是,使用功率超过1,000瓦的需要液体冷却。
该高管继续告诉FierceNetwork,Trainium2不需要液体冷却,但Trainium3需要。“当前一代不需要液体冷却,但下一代将需要液体冷却。当功率超过1,000瓦时,就需要液体冷却,”他说。
目前,Nvidia最强大的需要700W的功率,但其即将推出的B200估计需要1,000W。如果AWS将Trainium3设计的功率达到1,000W或更高,那么它就更接近与当前AI领域的领导者竞争。当然,如果它无法突破1,500W大关,它可能无法长期保持竞争力。
虽然Nvidia尚未发布新款Blackwell,但已经开始规划下一代Rubin,Rubin和英特尔传闻中的预计功耗均为1500W。
Kalyanaraman表示,AWS的大多数数据中心目前都依赖空气冷却。该公司正在为最终需要液体冷却做准备,这需要提前规划。液体冷却所需的冷却剂分配装置的当前交货时间可能为一年或更长时间。
再次,AWS尚未明确表示其Trainium3将需要1,000W或更高的功率。副总裁只是暗示并推断情况会如此。如果AWS开始计划将其数据中心转换为液体冷却,而Kalyanaraman表示功耗超过1,000W的需要液体冷却,那么这似乎是AWS为其下一代制定的计划的一个有力指标。
在同一次采访中,Kalyanaraman概述了AWS计划对其数据中心进行的其他变革。例如,Kalyanaraman表示,该公司计划安装支持高达51.2Tbps吞吐速度的下一代网络交换机。其现有交换机的最大吞吐速度大多为12.8Tbps。
亚马逊部门还在规划机架布局,以避免电力滞留在任何过道上。为了实现这一点,AWS需要规划AI、内存、存储和通用计算服务器的放置位置,以确保数据中心的每个过道都能充分利用可用电力。
那么,AWS是否会推出需要超过1,000瓦功率的?如果将这些声明放在一起考虑,并考虑到下一代AI加速器的当前行业趋势,听起来确实如此,但除非AWS有人明确表示,否则无法绝对确认。