谷歌希望这种大型语言模型能够将其推向人工智能行业的顶峰,在推出Gemini仅仅两个月后,该公司就已经宣布了其继任者。Google今天推出Gemini1.5,并在即将全面向消费者推出之前向开发者和企业用户开放。该公司已明确表示,它将把Gemini视为一种商业工具、个人助理以及介于两者之间的一切,并且正在努力推动该计划。
Gemini1.5有很多改进:Gemini1.5Pro是Google系统中的通用模型,显然与该公司最近推出的高端GeminiUltra不相上下,并且以87%的成绩击败了Gemini1.0Pro基准测试。它是使用一种越来越常见的技术制成的,称为“专家混合”或MoE,这意味着当您发送查询时,它只运行整个模型的一部分,而不是始终处理整个模型。(这是关于这个主题的一个很好的解释。)这种方法应该使模型既可以让您更快地使用,也可以让Google更高效地运行。
但Gemini1.5中有一项新功能,让整个公司(从首席执行官SundarPichai开始)特别兴奋:Gemini1.5拥有一个巨大的上下文窗口,这意味着它可以处理更大的查询并同时查看更多信息。该窗口的代币数量高达100万个,而OpenAI的GPT-4为128,000个,当前GeminiPro为32,000个。令牌是一个很难理解的指标(这里有一个很好的细分),因此Pichai让它变得更简单:“大约10或11小时的视频,数万行代码。”上下文窗口意味着您可以立即向人工智能机器人询问所有内容。
当皮查伊向我解释这一点时,他随口指出,你可以将整个《指环王》三部曲放入该上下文窗口中。这似乎太具体了,所以我问他:这已经发生了,不是吗?谷歌的某个人正在检查双子座是否发现任何连续性错误,试图了解中土世界的复杂血统,并看看人工智能是否最终能够理解汤姆·庞巴迪尔。“我确信这已经发生了,”皮查伊笑着说,“或者将会发生——两者之一。”
皮查伊还认为,更大的上下文窗口对于企业来说将非常有用。“这使得您可以在查询时添加大量个人上下文和信息,”他说。“可以想象,我们极大地扩展了查询窗口。”他想象电影制作人可能会上传他们的整部电影并询问双子座评论家会怎么说;他看到公司使用Gemini来查看大量财务记录。“我认为这是我们取得的更大突破之一,”他说。
目前,Gemini1.5只能通过Google的VertexAI和AIStudio向商业用户和开发人员提供。最终,它将取代Gemini1.0,而GeminiPro的标准版本(每个人都可以在gemini.google.com和公司的应用程序中使用)将是1.5Pro,具有128,000个令牌上下文窗口。您必须支付额外费用才能达到一百万。谷歌还在测试该模型的安全和道德边界,特别是关于新的更大的上下文窗口。
随着世界各地的企业试图制定自己的人工智能战略,以及是否与OpenAI、谷歌或其他公司签署开发者协议,谷歌目前正在激烈竞争,打造最好的人工智能工具。就在本周,OpenAI宣布了ChatGPT的“内存”,它似乎已经准备好进军网络搜索领域。到目前为止,Gemini似乎令人印象深刻,特别是对于那些已经进入Google生态系统的人来说,但各方面还有很多工作要做。
最终,Pichai告诉我,所有这些1.0和1.5、Pros和Ultras以及企业之争对用户来说并不重要。“人们只会消费这些体验,”他说。“这就像使用智能手机而不总是关注下面的处理器。”但目前,他说,我们仍处于每个人都知道手机内的阶段,因为它很重要。“基础技术变化如此之快,”他说。“人们确实关心。”