6月14日旧金山现场报道:AI浪潮中,NVIDIA无疑是最大受益者,A100等加速卡供不应求,多年耕耘的成熟生态更是大大降低了开发难度和成本。
当然,Intel、AMD不会让NVIDIA独美,都在尝试各自的方案,设计新的硬件产品。
Intel一方面是传统的至强x86CPU处理器,另一方面是基于XeHPC高性能计算架构的GPU,首款产品PonteVecchio已经用于超级计算机,还在尝试融合CPU+GPU,打造所谓的XPU,只是首款产品FlaconShores出师未捷,退回了纯GPU方案,未来再冲击CPU+GPU融合。
AMD在硬件层面的进展就顺利多了,不但有越来越强悍的EPYCCPU处理器,Instinct系列加速卡也是每一代都在飞跃。
早在今年初,AMD就宣布了新一代InstinctMI300,是全球首款同时集成CPU、GPU的数据中心APU。
现在,它的名字变成了InstinctMI300A,同时AMD还首次宣布了全新的纯GPU产品——“InstinctMI300X”。
InstinctMI300A号称全球首款面向HPC、AI的APU加速器,基于AMD多年的成熟丰富经验,实现了CPU、GPU的完美合体。
InstinctMI300A一共有多达13颗小芯片,其中计算部分9颗,都是5nm工艺制造。
CPU部分为Zen4架构,三颗CCD芯片,24个核心,GPU为最新的CDNA3架构,六颗XCD芯片,核心单元数量仍未公布,还有128GB容量的HBM3高带宽内存,可以为CPU、GPU所共享。
另外4颗芯片都是6nm工艺制造,是计算部分3D堆叠的基础,作为有源中介层,可以处理I/O和其他各种功能。
整颗芯片有多达1460亿个晶体管,超过了Intel1000亿个晶体管的PonteVecchio,而且后者只有GPU。
标准的Socket独立封装(不是SP5),有了它就不再需要单独的EPYC处理器,一颗芯片组就能构成一个完整的计算系统。
InstinctMI300X和前辈一样是纯GPU方案,其实就是把InstinctMI300A里的那个CPU单元也换成了CDNA3GPU单元,HBM3高带宽内存也增加到了192GB,相当于NVIDIAH10080GB的足足2.4倍。
同时,HBM内存带宽高达5.2TB/s,InfinityFabric总线带宽也有896GB/s,同样远超NVIDIAH100。
晶体管数量进一步来到1530亿个,跨越了1500亿大关,叹为观止。
发布会现场,AMD第一次公开展示了InstinctMI300X,实时输出了一首关于旧金山的诗歌。
它单卡即可轻松运行400亿参数的大语言模型,面对不同模型、参数规模所需的GPU数量相比竞品更少,自然成本更低。
得益于超大的HBM3内存,这个大模型,其实就是完全在HBM3内存中运行的,无需使用系统内存,自然节省了数据的传输与拷贝,从而大大降低延迟、提升性能。
同时,AMD还宣布了新的Instinct平台,基于业界标准的OCP开放计算标准,八块InstinctMI300X加速卡并行,可提供总计多达1.5TBHBM3内存。
InstinctMI300A现已出样,InstinctMI300X将在第三季度出样,相关产品预计第四季度上市。