中国AI模型席卷HuggingFace的LLM聊天机器人基准排行榜

时间：2024-07-29 10:16:13 来源：

导读 HuggingFace发布了第二份LLM排行榜，以评选出其测试过的最佳语言模型。新排行榜旨在成为更具挑战性的统一标准，用于测试开放式大型语言模型...

HuggingFace发布了第二份LLM排行榜，以评选出其测试过的最佳语言模型。新排行榜旨在成为更具挑战性的统一标准，用于测试开放式大型语言模型(LLM)在各种任务中的表现。阿里巴巴的Qwen模型在排行榜的首次排名中占据主导地位，在前十名中占据了三个席位。

HuggingFace的第二个排行榜通过四项任务测试语言模型：知识测试、极长上下文推理、复杂数学能力和指令遵循。六个基准用于测试这些品质，测试包括解决1,000字的谋杀谜团、用外行人能理解的语言解释博士级问题，以及最艰巨的高中数学方程式。所用基准的完整分类可在HuggingFace的博客上找到。

新排行榜的领跑者是阿里巴巴的法学硕士Qwen，它凭借少数几个变体分别位居第一、第三和第十名。此外还有Meta的法学硕士Llama3-70B和一些表现优异的小型开源项目。值得注意的是，ChatGPT缺席了榜单;HuggingFace的排行榜没有测试闭源模型以确保结果的可重复性。

进入排行榜的测试完全在HuggingFace自己的电脑上运行，根据首席执行官ClemDelangue的推特，这些电脑由300个NvidiaH100GPU驱动。由于HuggingFace的开源和协作性质，任何人都可以自由提交新模型进行测试并进入排行榜，新的投票系统会优先考虑受欢迎的新模型进行测试。排行榜可以进行过滤，只显示突出显示的重要模型，以避免出现大量小型LLM的混乱情况。

作为法学硕士领域的支柱，HuggingFace已成为法学硕士学习和社区协作的可靠来源。去年，HuggingFace发布了第一个排行榜，用于比较和重现几个知名法学硕士的测试结果，此后，该排行榜迅速走红。在排行榜上取得高分成为许多开发者的目标，无论大小，而随着模型变得越来越强大、越来越“智能”，并针对第一个排行榜的特定测试进行了优化，其结果变得越来越没有意义，因此产生了第二个版本。

一些LLM，包括Meta的Llama的较新版本，在新排行榜上的表现与第一排行榜上的高分相比严重落后。这是因为LLM只在第一个排行榜的基准上进行过度训练，导致实际表现倒退。由于超特定和自我参考数据，这种表现倒退遵循了AI表现随着时间的推移而恶化的趋势，这再次证明，正如谷歌的AI答案所表明的那样，LLM的表现只与其训练数据一样好，真正的人工智能仍需很多年才能实现。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：

上一篇:华硕第三次修改其DualRadeonRX6600

下一篇:最后一页