在科技巨头们的年度冲刺中,人工智能领域再次迎来了令人瞩目的新动向。谷歌与OpenAI的较量,成为这场技术盛宴的焦点。
就在OpenAI宣布即将连续12天发布更新的前夕,谷歌于深夜悄然推出了其新一代模型——Gemini 2.0。这一举动似乎预示着,在多次被OpenAI“狙击”后,谷歌终于找到了反击的契机,尤其是在OpenAI尚未明确布局的领域——Agent功能。
Agent,这一术语通常指的是AI能够感知环境、执行任务并在一定程度上自主决策的能力,即实现更自动化的任务完成。谷歌此次不仅发布了Gemini 2.0模型,更是一口气推出了四个与Agent相关的功能,让人眼前一亮。
首先是Project Astra,它能够在Gemini应用中直接调用Google Lens和地图功能,帮助用户解决生活中的实际问题。紧接着是Project Mariner,这一Chrome浏览器的实验性功能允许用户通过提示词直接浏览网页并完成任务,极大地提升了工作效率。Jules是一个可以嵌入GitHub的编程Agent,用户只需用自然语言描述问题,Jules就能生成可直接合并到项目中的代码。最后,游戏Agent能够实时解读屏幕画面,通过语音交流为用户提供游戏策略提示,这一功能在与《部落冲突》等游戏的合作中展现出了惊人的实力。
谷歌的新功能建立在Gemini 2.0的强大能力之上。与众多大模型不同的是,谷歌从一开始就选择了原生多模态的训练方式,这一策略让Gemini 2.0在理解事物后能够更灵活地进行不同模态的生成。此次升级,Gemini 2.0不仅拥有了原生的图像生成、音频输出和工具应用能力,还在多模态推理、长上下文理解等方面取得了显著进步。
Project Mariner的演示尤为引人注目。演示者通过Chrome浏览器打开了一个包含公司名的表格,并启动了这一实验性功能。浏览器自动记住了这些公司名,并逐一访问官网查找邮箱地址。整个过程用户只需在右侧栏输入提示词,即可随时查看模型的工作状态并停止自动操作。这一功能不仅提升了工作效率,还保证了安全性。
Jules则让自然语言写代码变得更加简单。用户只需输入详细的编程问题提示词,Jules就能分析并给出解决方案,甚至自动生成代码并合并到用户原有的项目中。而游戏Agent的演示则充满了趣味性,用户分享手机屏幕并用语音与Agent沟通,Agent直接给出了游戏中的最佳策略。这一功能对于策略型游戏玩家来说,无疑是一个强大的“外挂”。
虽然Gemini 2.0目前并未对所有用户开放,但谷歌表示正在将其逐步开放给开发者和受信任的测试人员。这也意味着上述Agent功能距离用户真正使用还有一段时间。不过,谷歌已经计划在将Gemini 2.0的高级推理能力引入其搜索功能中,以应对更复杂的话题和多步骤问题。
谷歌还推出了Gemini 2.0 Flash这一小号模型,作为Gemini中的默认使用模型。它不仅支持图片、视频和音频等多模态输入,还能直接生成图像与文本混合的内容以及原生生成可控的多语言文本转语音音频。同时,作为2.0模型家族的一员,它也支持调用Google Search、代码执行等工具。
Project Astra作为谷歌为眼镜项目所做的前瞻项目,此次也迎来了重大更新。包括更流畅的对话、新工具的使用、更强的记忆力和更低的延迟。谷歌表示,未来用户无论是在电脑上还是通过眼镜、手机等设备使用这一助手,它都能记住会话和用户的意图,提供个性化的服务。
随着谷歌、OpenAI等科技巨头在Agent领域的不断探索和突破,我们似乎已经可以预见一个全新的时代即将到来。在这个时代里,AI将像魔法一样全自动地完成任务,无需任何技术背景就能提升我们的工作效率和使用体验。而Agent技术的提升也为智能硬件真正进入人们生活打下了坚实的基础。