深度 | 谷歌据称将开发可控制计算机的AI 可完成研究和购物等任务 - 美股新闻 - LogoMoeny - Us stocks at the forefront

　　Alphabet旗下的谷歌正在开发可控制浏览器的人工智能技术，以完成研究和购物等任务，计划在12月展示这款新的AI产品，与Anthropic在上周宣布的一款产品类似。

　　据The Information昨日报道，谷歌将于12月展示代号为“Project Jarvis”的产品，这款产品也称为“计算机使用代理”，旨在接管用户的浏览器，以帮助消费者完成诸如收集研究、购买产品或预订航班等各种日常任务。谷歌还将于12月发布其下一代旗舰产品Gemini大型语言模型，为Jarvis提供动力。
　　AI行业下一步竞争方向：AI Agents
　　此前有报道提到，微软支持的OpenAI也希望其模型能够在“CUA”（使用计算机的代理）的帮助下自主浏览网页，并根据研究结果采取行动。
　　Anthropic和谷歌正试图通过与个人计算机或浏览器直接交互的软件将这一代理概念更进一步。
　　两家公司的代理产品也存在关键差异。Anthropic表示其产品可以操作安装于电脑不同应用程序上，而Jarvis目前只能操作浏览器，并且已经针对谷歌的Chrome浏览器进行了“定制化”调整。
　　Jarvis的发布时间表表明，尽管谷歌在AI技术的基础研究方面有着一定积累，但谷歌显然还在追赶其竞争对手。目前，谷歌仍在开发具有所谓“推理能力”的AI，而OpenAI早在9月份就已经推出了这一功能。
　　谷歌的Gemini聊天机器人在与OpenAI的ChatGPT竞争中严重落后，导致企业纷纷转向了OpenAI的大型语言模型LLMs，这也使得谷歌的Gemini模型难以迎头赶上。为了提高AI开发效率，上周，谷歌将负责Gemini聊天机器人的团队并入了其主要AI团队DeepMind。
　　当前，AI开发人员已经将“代理（agents，即能够完成复杂任务而无需人类监督的AI系统）”视为行业的下一阶段。Salesforce、微软和Workday等企业纷纷从OpenAI和其他公司购买了LLMs，并竞相使用这一技术开发AI代理。
　　最大的人工智能公司正在研究能够完成The Information描述的任务的模型。Microsoft会让用户与它谈论正在浏览的网页。预计明年Apple智能将了解用户屏幕上的内容，并在各种应用程序中执行某些操作。
　　知情人士表示，至少在目前，Jarvis的目标用户是那些希望实现网页日常任务自动化的人。在谷歌今年春天的开发者大会上，首席执行官Sundar Pichai暗示，未来的Gemini版本可以自主执行多项操作，如帮助用户退回一双鞋子等。
　　Jarvis目前运行速度相对较慢
　　谷歌可能会先向少数早期测试者发布该产品，以帮助识别和修复其不足之处。该代理目前运行速度相对较慢，因为模型需要在采取每个行动前思考几秒钟。
　　此外，由于谷歌还需要访问客户的隐私信息如登录密码和信用卡信息等，才能访问不同的网站来完成任务或根据客户的要求进行购买。
　　分析人士指出，谷歌需要让人们相信，其AI代理能够安全地处理他们的个人数据，这是它执行任务所必需的。
　　除此之外，LLMs还有一些普遍的漏洞，比如可能会产生错误答案，此前，谷歌在其搜索引擎中使用LLMs驱动的对话式答案，出现了许多明显的错误。
　　Jarvis这一计划名称的出处是漫威漫画《钢铁侠》中的一名角色，寓意“Just A Rather Very Intelligent System”（J.A.R.V.I.S.），即“只是一个相当聪明的系统”。
　　在漫威电影宇宙中，Jarvis作为精密的AI被引入，出现于2008年电影《钢铁侠》、2010年电影《钢铁侠2》和2012年电影《复仇者联盟》以及2013年电影《钢铁侠3》。贾维斯作为小罗伯特·唐尼饰演的主角托尼·斯塔克的助手负责连接到任意计算机终端：操控斯塔克的房屋和钢铁侠战服的内部系统。贾维斯能够与斯塔克进行相当有教养的交谈，并且常常调侃他的创造者的轻率和傲慢。