英特尔宣布针对Llama3.1进行优化,以提高所有产品的性能:Gaudi、Xeon、Core和ArcSeries1
Meta的Llama3.1现已上线,英特尔已宣布其整个产品组合(如Gaudi、Xeon、Arc和Core)全面支持Llama3.1AI模型。
英特尔的所有CPU和GPU现已通过Llama3.1AI模型增强性能
Meta今天刚刚发布了其最新的大型语言模型Llama3.1,取代了4月份发布的Llama3版。与此同时,英特尔发布了Llama3.1在其最新产品上的性能数据,包括基于CoreUltra处理器和Arc显卡的英特尔Gaudi、Xeon和AIPC。英特尔不断致力于其AI软件生态系统,新的Llama3.1模型已在其AI产品上启用,这些产品可用于各种框架,例如PyTorch和英特尔PyTorch扩展、DeepSpeed、HuggingFaceOptimumLibraries和vLLM,确保用户在其数据中心、边缘和客户端AI产品上获得最新MetaLLM的增强性能。
Llama3.1包含一个多语言LLM集合,提供不同大小的预训练和指令调整生成模型。Llama3.1中引入的最大基础模型是405B大小,它在常识、可操纵性、数学、工具使用和多语言翻译方面提供最先进的功能。较小的模型包括70B和8B大小,前者是高性能且经济高效的模型,后者是用于超快速响应的轻量级模型。
英特尔在其英特尔Gaudi加速器上测试了Llama3.1405B,该加速器是专为经济高效和高性能训练和推理而设计的处理器。结果显示,在不同令牌长度下,响应速度快、吞吐量高,展现了Gaudi2加速器和Gaudi软件的功能。同样,Gaudi2加速器在32k和128k令牌长度的70B型号上表现出更快的性能。
Llama3.1-8B英特尔至强
Llama3.18B在英特尔至强可扩展处理器上的性能
接下来,我们在测试台上安装了英特尔第五代至强可扩展处理器,展示了不同令牌长度下的性能。在BF16和WOQINT8测试中,使用1K、2K和8K令牌输入时,令牌延迟处于接近的范围内(大部分在40ms和30ms以下)。这显示了英特尔至强处理器的快速响应,它拥有英特尔AMX(高级矩阵扩展),可提供卓越的AI性能。即使使用128K令牌输入,两次测试中的延迟仍保持在100ms以下。