谷歌狙击OpenAI 集中火力猛攻AI智能体
西西734
发表于 2024-12-12 11:19:16
1156
0
0
谷歌首席执行官Sundar Pichai在公开信中称,“在过去一年中,我们一直在投资开发更具”代理性“的模型,即这些模型能更深入地理解你周围的世界,提前多步思考,并在你的监督下为你执行任务。今天,我们很高兴迎来新一代的模型——Gemini 2.0,它是我们迄今为止最强大的模型。通过多模态的新进展——如原生图像和音频输出——以及原生工具使用,我们能够构建新的AI智能体,使我们更接近普遍AI助手的愿景。”
谷歌DeepMind CEO Demis Hassabis也表示,2025年将是AI智能体的时代,Gemini 2.0将是支撑我们基于智能体工作的最新一代模型。
目前Gemini 2.0版本尚未正式上线,谷歌表示已经将其提供给了一些开发者内测。第一时间上线的是比Gemini 1.5 Pro更强的Gemini 2.0 Flash实验版,实验版已在网页端开放,Gemini用户可以通过PC端访问Gemini 2.0 Flash,移动端即将推出。
根据谷歌发布的基准测试结果,不论是在多模态的图片、视频能力上,还是编码、数学等能力上,仅是Flash实验版的Gemini 2.0表现几乎全面超越Gemini 1.5 Pro,且响应速度提升了2倍。
谷歌集中火力猛攻AI智能体
通过谷歌的本次更新,我们已经可以窥见其AI布局的冰川一角——一切为了智能体。
1、更强大的多模态能力:
Gemini 2.0 Flash实验版除了支持图像、视频和音频等多模态输入,还支持多模态输出,比如原生生成的图像与文本结合,以及可操控的多语言文本转语音(TTS)音频。
2、更专业的AI搜索:
谷歌在Gemini Advanced中推出了一项名为深度研究(Deep Research)的智能体新功能。该功能结合了谷歌的搜索专长和Gemini的高级推理能力,可以围绕一个复杂主题生成研究报告,相当于一个私人研究助手。
3、多款智能体更新、上线:
更新了基于Gemini 2.0构建的智能体Project Astra :Astra的新功能包括支持多语言混合对话;能够在Gemini应用中直接调用Google Lens和地图功能;记忆能力提升,具备最多10分钟的会话内记忆,对话更连贯;借助新的流式处理技术和原生音频理解能力,该智能体能够以近于人类对话的延迟来理解语言。值得注意的是,Astra是谷歌为眼镜项目所做的前瞻项目。谷歌提到,正在将Project Astra移植到眼镜等更多移动终端中。
发布适用于浏览器的智能体Project Mariner(海员项目):该智能体能够理解并推理浏览器屏幕上的信息,包括像素和网页元素(如文本、代码和图片),然后通过Chrome扩展程序来利用这些信息帮你完成任务。
发布专为开发者打造的AI编程智能体Jules:Jules支持直接集成到GitHub工作流中,用户使用自然语言描述问题,就能直接生成可以合并到GitHub项目中的代码;
发布游戏智能体:能够实时解读屏幕画面,通过用户游戏屏幕上的动作给出下一步操作建议,或直接在你打游戏的时候通过和你语音交流。
谷歌表示,明年年初,会将Gemini 2.0扩展到更多旗下产品中。此前推出的AI Overviews将集成 Gemini 2.0,从而提升复杂问题处理能力,包括高级数学公式、多模态查询和编程。本周已经进行有限测试,预计明年推广,并扩展至更多国家和语言。
CandyLake.com is an information publishing platform and only provides information storage space services.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.