谷歌“反击战”开启 投资人热议多模态模型商业化
今早我梦醒了坎
发表于 2023-12-11 11:13:40
269
0
0
Gemini“太震撼”
近日,谷歌CEO桑达尔·皮查伊宣布Gemini1.0版正式上线。Google DeepMind产品副总裁伊莱·柯林斯表示,这是Google迄今为止功能最强大、最通用的大模型。
据了解,和市面上现有大模型相比,Gemini从一开始就被创建为多模态的模型,这意味着它可以归纳并流畅地理解、操作以及组合不同类型的信息,包括文本、代码、音频、图像和视频。在灵活度上,从数据中心到移动设备上,它都能够运行。
在观看Gemini系列演示视频后,不少投资人表示“太震撼”。“看了Gemini的演示视频,其所表现出来的对多模态理解的能力非常惊人,此外,Gemini所表现出来的推理能力目前看来是超过ChatGPT的。”北京邮电大学计算机学院副教授孙海峰表示,一方面,在多模态信息处理上,Gemini远超OpenAI的ChatGPT。Gemini既可以支持多模态信息输入,也支持多模态信息输出。Gemini一个典型的特点是支持文本、图像、音频和视频的交错序列作为输入,这对于ChatGPT或者传统架构的多模态大模型来讲,是很难实现的。通常来讲,ChatGPT仅仅支持文字的输出,其他模态的输出需要调用第三方API来实现。Gemini这种交错序列的输入方式更符合绝大多数场景的需求。另一方面,在Gemini的技术报告中,其在MMLU数据集测试中的准确率达到了90.04%,超过了人类专家,其推理能力的进化具有里程碑意义。
在Gemini上线后的一天,谷歌被外界质疑称,多模态视频是剪辑拼贴的,Gemini涉嫌夸大宣传。谷歌官方也给予了解释:视频的确有后期制作和剪辑的成分,Gemini所有交互不是实时感知到,而是工作人员给予图片和提示之后的效果,即Gemini在读取视频方面还有待进一步发展。
实时交互场景或是商业化焦点
受此消息的影响,国内投资人针对多模态技术及其应用展开热议。
某科技赛道的一级投资人表示,相较ChatGPT-4,Gemini的识图和推理能力,以及目前看上去的响应速度有很大进步。他个人认为,Gemini与OpenAI的产品各有千秋,商业化落地方面还需要找到合适的场景。“有合适的场景适配,并找到增值需求还是关键,但Gemini确实是将AI模型的想象空间进一步打开了。”
“可以大胆想象,当多模态模型运行在机器人身上,可能实现具身智能,另外,当多模态模型和谷歌眼镜结合时,或将升级为超级智能体。”另一位投资人表示。
某技术人士介绍,人类有五种感官,我们所建造的世界、所消费的媒体,都是以这样的方式所呈现。而多模态模型意味着Gemini可以用和人类一样的方式理解周围的世界,并且吸收任何类型的输入和输出——无论是文字,还是代码、音频、图像、视频。其中最关键的技术,是如何混合所有这些模式,如何从任意数量的输入和感官中收集尽可能多的数据,然后给出同样多样化的响应。
“Gemini更像人了,更贴近人的视觉识别和一些推理判断,OpenAI的ChatGPT更多像一个大知识库,它能够给人提供信息参考。两者不是谁超越谁,而是侧重方向有显著不同。”某投资人表示。
孙海峰表示,目前还不太清楚Gemini的具体实现结构是什么样的,但是这种对多种模态信息可以交错序列作为输入方式的模式,是许多场景、尤其是实时交互场景非常需要的。
另一位科技投资人认为,Gemini的发布意味着大厂在人工智能方面具有先发优势更加确定,比如谷歌的Gemini视觉推理方面能力突出,是因为他们有基于搜索引擎的各种资料作为大量的训练数据。此外,大厂在数据、流量、资金、算力以及应用场景上的优势都很明显。
CandyLake.com is an information publishing platform and only provides information storage space services.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.