AI圈沸腾！巨头神秘新品来了苹果“赢麻了”？

　　千呼万唤始出来，OpenAI终于“上新”了。

　　北京时间5月14日凌晨1点，OpenAI直播发布了其产品的更新。在半小时的线上发布会上，OpenAI的首席技术官米拉·穆拉蒂（Mira Murati）宣布GPT-4的一系列升级。发布会的主要亮点如下：

推出了全新的模型GPT-4o，其中的“o”表示“omni”（全面、全能）。同时，GPT-4o 向所有用户免费开放。

　　新模型具备强大的多模态交互能力。在发布会演示中，GPT-4o具备文本、图片、视频和语音方面的能力，可以顺畅丝滑地与人类进行语音交流，并读懂屏幕信息。
　　发布了ChatGPT 桌面应用程序，目前可适用于 macOS，Windows 版本将在今年晚些时候推出。

AI助手初具雏形

　　在发布会前，记者注意到OpenAI的官网上已经将GPT-4的描述从“最先进的模型”更改为“先进的模型”，为GPT-4o的发布提前做了准备。
　　作为OpenAI目前最先进的模型，GPT-4o的特别之处在于可以接受任何文本、音频和图像的组合作为输入，并生成上述这几种模态的内容。这意味着，GPT-4o具备了AI助手的基本雏形，在通往通用人工智能的道路上又前进了一步。
　　在发布会现场，穆拉蒂与OpenAI的前沿研究主管Mark Chen和后期训练团队负责人Barret Zoph对实时语音对话功能进行了演示。从演示效果上来看，GPT-4o与人类的交互变得更及时和自然。据介绍，GPT-4o可以在232毫秒内回应音频输入，接近于人类对话的反应时间。在此之前，使用语音模式与ChatGPT进行交流，平均时延为2.8秒（GPT-3.5）和5.4秒（GPT-4）。GPT-4o不仅可以实时响应对话，还没有尴尬漫长的时延，而且能够生成各种不同情绪风格的语音。
　　例如，当被问及“你最近怎么样？”时，GPT-4o 除了表示“我很好”，还会反问“你怎么样？”当“要求讲一个”机器人和爱情的睡前故事时，GPT-4o开始说话以后被打断，要求以更有情绪性、更戏剧化的方式讲述故事，随后GPT-4o在讲故事时的语音语调更跌宕起伏，更为声情并茂，甚至可以以唱歌的形式结束对话。
　　从此以后，家长们哄娃睡觉变得so easy。
　　不仅如此，GPT-4o 还拥有视觉+语音交互功能，能够看图解方程式。Zoph打开手机视频通话，对GPT-4o说：“我要在一张纸上写下一个线性方程。不要告诉我答案，只是给出解答它的过程。”随后，Zoph写下了3x+1=4的方程式，询问如何解这道题。GPT-4o通过循循善诱的提示，在Zoph提出求助与问题时不断给出下一个步骤的建议，从而得出了x=1的正确结果。
　　从此，家长辅导孩子写作业也变得更轻松。
　　此外，GPT-4o能够实时读懂屏幕信息，帮助解答代码问题和分析图表；能够跨语言实时翻译，在说话者用意大利语和英语对话时，没有延迟地翻译成了对应的语言，还能模仿说话者的语气；能够识别分析人类的情绪，当说话者展示一张自拍，要求其判断自己的情绪时，GPT-4o 分析道，“你看起来非常开心，可能还有一些激动，应该心情很不错。”
　　虽然OpenAI的首席执行官山姆·奥特曼没有在发布会现场出现，但他在个人社交平台上实时播报着OpenAI的更新。发布会后，他发布了一条动态，只写了“her”这一个词。据外媒此前报道，奥特曼曾表示自己最喜欢的一个人工智能电影是《她》（Her），最终目标是开发出一种类似电影中的虚拟AI助手，努力使苹果Siri等现有语音助手变得更加实用和智能。

“截胡”谷歌，示好苹果

　　早在一周以前，关于OpenAI发布新产品的消息就甚嚣尘上。有消息称OpenAI将发布GPT-5，还有消息称OpenAI即将发布一款基于ChatGPT的AI搜索引擎，向谷歌发起冲击。5月11日，奥特曼在其个人社交平台上否认了以上的传言，并表示：“不是GPT-5，也不是搜索引擎，但我们一直在努力开发一些我们认为人们会喜欢的新东西！对我来说感觉像魔术一样！”
　　值得注意的是，谷歌即将在5月14日召开I/O 开发者大会，宣布安卓、谷歌搜索等方面的更新。OpenAI选择在I/O 开发者大会前一天召开发布会，无疑是不希望被谷歌抢了自己的风头。这样的事情并非首次，今年2月16日，OpenAI在事先未作预热的情况下便发布了Sora文生视频模型，引发全世界的关注。而彼时谷歌刚刚升级了Gemini Pro大模型，但在Sora的火爆下显得黯然失色。
　　如今OpenAI再度宣战，压力也直接给到了即将正面迎战的谷歌。华福证券研报显示，海外主流AI大模型中，总访问量上ChatGPT仍居于首位，其余大模型中Claude、Perplexity、Character.ai 4月访问量都有一定上涨，但谷歌的Gemini访问量在4月出现下滑，环比跌幅为1.4%。可以看到，在竞逐大模型的路上，谷歌正面临着OpenAI愈发强势的竞争。
　　与之相对，隐藏在这场新品发布会中的幕后赢家当属苹果。记者注意到，本次发布会全程用iPhone和MacBook Pro进行演示，同时还发布了Mac桌面版的ChatGPT，似乎是暗示OpenAI将与苹果合作，在苹果设备中接入大模型的能力。
　　事实上，这场合作在OpenAI此前的一些动作及媒体消息中已可见端倪。据彭博社5月10日报道，苹果正在与OpenAI商议敲定一项协议，计划在今年在iPhone中引入OpenAI的大模型技术。通过这笔交易，苹果将能够提供由ChatGPT提供支持的“聊天机器人”，作为iOS 18中人工智能功能的一部分。不过报道也指出，苹果还与谷歌就授权Gemini聊天机器人进行了谈判，但尚未达成协议。
　　最近，奥特曼参加了播客节目“All-in Podcast”，在其中谈到了许多人工智能的热点与方向。他表示，OpenAI将继续改进语音功能的质量，“相信语音交互或许是通向未来交互方式的重要线索”。当主持人问及他是否和Jony Ive（“iPhone之父”，前苹果首席设计师）有所合作时，奥特曼还表示，“是的，我们在交流一些想法”。
　　今年2月，苹果CEO蒂姆·库克曾对外透露，公司正在开发生成式AI软件功能，将在iOS 18中引入由大型语言模型支持的新Siri功能，但并未提及与OpenAI是否有合作事宜。据悉，苹果将在6月份举办WWDC全球开发者大会，展示iOS、iPadOS、macOS、watchOS、tvOS 和 visionOS的前沿创新。
　　分析人士认为，若能与OpenAI达成合作，苹果不仅可以缩短产品研发周期，还可以迅速提升自家产品的智能化水平。在生成式AI时代已经落后太多的苹果，是否能通过在其硬件中接入全球领先的大模型，打一个漂亮的“翻身仗”，谜底或许也将在6月揭晓。

AI圈沸腾！巨头神秘新品来了 苹果“赢麻了”？