英特尔宣布针对Llama3.1进行优化以提升所有产品的性能

时间：2024-07-25 10:22:06 来源：

导读英特尔宣布针对Llama3.1进行优化，以提高所有产品的性能：Gaudi、Xeon、Core和ArcSeries1Meta的Llama3.1现已上线，英特尔已宣布其整个产品...

英特尔宣布针对Llama3.1进行优化，以提高所有产品的性能：Gaudi、Xeon、Core和ArcSeries1

Meta的Llama3.1现已上线，英特尔已宣布其整个产品组合(如Gaudi、Xeon、Arc和Core)全面支持Llama3.1AI模型。

英特尔的所有CPU和GPU现已通过Llama3.1AI模型增强性能

Meta今天刚刚发布了其最新的大型语言模型Llama3.1，取代了4月份发布的Llama3版。与此同时，英特尔发布了Llama3.1在其最新产品上的性能数据，包括基于CoreUltra处理器和Arc显卡的英特尔Gaudi、Xeon和AIPC。英特尔不断致力于其AI软件生态系统，新的Llama3.1模型已在其AI产品上启用，这些产品可用于各种框架，例如PyTorch和英特尔PyTorch扩展、DeepSpeed、HuggingFaceOptimumLibraries和vLLM，确保用户在其数据中心、边缘和客户端AI产品上获得最新MetaLLM的增强性能。

Llama3.1包含一个多语言LLM集合，提供不同大小的预训练和指令调整生成模型。Llama3.1中引入的最大基础模型是405B大小，它在常识、可操纵性、数学、工具使用和多语言翻译方面提供最先进的功能。较小的模型包括70B和8B大小，前者是高性能且经济高效的模型，后者是用于超快速响应的轻量级模型。

英特尔在其英特尔Gaudi加速器上测试了Llama3.1405B，该加速器是专为经济高效和高性能训练和推理而设计的处理器。结果显示，在不同令牌长度下，响应速度快、吞吐量高，展现了Gaudi2加速器和Gaudi软件的功能。同样，Gaudi2加速器在32k和128k令牌长度的70B型号上表现出更快的性能。

Llama3.1-8B英特尔至强

Llama3.18B在英特尔至强可扩展处理器上的性能

接下来，我们在测试台上安装了英特尔第五代至强可扩展处理器，展示了不同令牌长度下的性能。在BF16和WOQINT8测试中，使用1K、2K和8K令牌输入时，令牌延迟处于接近的范围内(大部分在40ms和30ms以下)。这显示了英特尔至强处理器的快速响应，它拥有英特尔AMX(高级矩阵扩展)，可提供卓越的AI性能。即使使用128K令牌输入，两次测试中的延迟仍保持在100ms以下。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：

上一篇:macOSSequoia iPadOS18 watchOS11和tvOS18的公开Beta版现已上线

下一篇:最后一页