首页 知识问答 > 内容

中国AI模型席卷HuggingFace的LLM聊天机器人基准排行榜

时间:2024-07-29 10:16:13 来源:
导读 HuggingFace发布了第二份LLM排行榜,以评选出其测试过的最佳语言模型。新排行榜旨在成为更具挑战性的统一标准,用于测试开放式大型语言模型...

HuggingFace发布了第二份LLM排行榜,以评选出其测试过的最佳语言模型。新排行榜旨在成为更具挑战性的统一标准,用于测试开放式大型语言模型(LLM)在各种任务中的表现。阿里巴巴的Qwen模型在排行榜的首次排名中占据主导地位,在前十名中占据了三个席位。

HuggingFace的第二个排行榜通过四项任务测试语言模型:知识测试、极长上下文推理、复杂数学能力和指令遵循。六个基准用于测试这些品质,测试包括解决1,000字的谋杀谜团、用外行人能理解的语言解释博士级问题,以及最艰巨的高中数学方程式。所用基准的完整分类可在HuggingFace的博客上找到。

新排行榜的领跑者是阿里巴巴的法学硕士Qwen,它凭借少数几个变体分别位居第一、第三和第十名。此外还有Meta的法学硕士Llama3-70B和一些表现优异的小型开源项目。值得注意的是,ChatGPT缺席了榜单;HuggingFace的排行榜没有测试闭源模型以确保结果的可重复性。

进入排行榜的测试完全在HuggingFace自己的电脑上运行,根据首席执行官ClemDelangue的推特,这些电脑由300个NvidiaH100GPU驱动。由于HuggingFace的开源和协作性质,任何人都可以自由提交新模型进行测试并进入排行榜,新的投票系统会优先考虑受欢迎的新模型进行测试。排行榜可以进行过滤,只显示突出显示的重要模型,以避免出现大量小型LLM的混乱情况。

作为法学硕士领域的支柱,HuggingFace已成为法学硕士学习和社区协作的可靠来源。去年,HuggingFace发布了第一个排行榜,用于比较和重现几个知名法学硕士的测试结果,此后,该排行榜迅速走红。在排行榜上取得高分成为许多开发者的目标,无论大小,而随着模型变得越来越强大、越来越“智能”,并针对第一个排行榜的特定测试进行了优化,其结果变得越来越没有意义,因此产生了第二个版本。

一些LLM,包括Meta的Llama的较新版本,在新排行榜上的表现与第一排行榜上的高分相比严重落后。这是因为LLM只在第一个排行榜的基准上进行过度训练,导致实际表现倒退。由于超特定和自我参考数据,这种表现倒退遵循了AI表现随着时间的推移而恶化的趋势,这再次证明,正如谷歌的AI答案所表明的那样,LLM的表现只与其训练数据一样好,真正的人工智能仍需很多年才能实现。

标签:
最新文章