谷歌发布了 Gemini 2.0 Flash Thinking 的升级版本,其上下文窗口长度扩展至 1M,再次登顶 Chatbot Arena 排行榜。该模型强调推理能力,并能在多轮对话中自我纠错。升级版模型在数学、科学和多模态推理能力方面都有显著提升,尤其在数学能力测试中提升了 54%。谷歌表示,该模型的长上下文能力并非简单的信息堆积,而是能够连贯地运用积累的信息完成任务。除了文本能力的提升,Gemini 2.0 还展示了强大的多模态理解能力,能够根据语音提示操作网页元素,并融合语音、视觉和动作信息。谷歌透露,他们正在探索 3D 数据的应用,并已取得初步成果。目前,Gemini 系列模型的交互界面整合在 Google AI Studio 中,提供 API 密钥获取、提示词创建、实时对话、APP 开发等功能,但界面和文档仍有待完善。谷歌强调,他们的目标是打造全面均衡的通用模型,而非在特定领域表现突出。
此外,谷歌的开发理念更偏向「全面均衡」。「我们不希望模型在某些领域特别突出,而其他领域表现欠佳 —— 比如在读 X 射线时表现出色,但解读核磁共振时却很糟糕。」Jeff Dean 补充道:「我们的目标是打造一个真正有实力的通用模型,能够完成用户期待的各类任务。这需要持续改进:我们会收集用户反馈,了解模型在哪些方面做得好,哪些方面做得不够好。然后,获取更多人们关心的数据来提升,确保模型在各个方向都有进步,而不是局限在某个小范围内 —— 虽然在数学等特定领域,有时也会进行专门优化。」
Gemini 2.0 Flash Thinking 主推的亮点是超长的上下文窗口。不过,众所周知,很多具备长上下文窗口能力的 AI 模型都有个通病:聊着聊着就「变傻」了,说的话前言不搭后语,或者就直接「摆烂」,跳过上下文中的大段信息。
Jeff Dean 表示,Gemini 2.0 Flash Thinking 真正能做到在对话过程中保持连贯的思维,并灵活运用之前积累的信息来完成当前的任务。因相比混合在一起的数千亿训练数据,上下文窗口的信息对于模型来说非常清晰,因此,上下文窗口的信息对于 Gemini 2.0 Flash Thinking 来说,就像你让把一张普通轿车的图片改成敞篷车一样,模型能准确理解每个像素,然后一步步完成修改。