一日惊艳后翻车？谷歌“双子座”大模型6分钟视频被曝经过了剪辑

　　年初bard首秀“翻车”后，北京时间12月7日，谷歌推出了大模型Gemini（中文名称“双子座”），并发布了一系列令人眼花缭乱的演示视频。这次“双子座”能对决GPT-4吗？

　　在这些演示视频中，最令人称奇的莫过于在一段4分钟的演示视频里，当测试人员进行绘画、变魔术等操作时，双子座可以即时发表观点，和测试人员实时互动，仅看视频中的表现，双子座的理解力甚至达到了人类的水平。
　　“仅就演示的内容来看，双子座的视频理解能力无疑达到了当前最领先的水平。”北京某大模型的算法工程师在接受新京报贝壳财经记者采访时表示，“这个能力来源于双子座在训练的时候就天然加入了大量的视频数据，并且在架构上就支持视频理解。”
　　不过，在发布仅一天之后，许多用户在测试中发现，双子座的视频理解能力并不像演示中那样“丝滑”。对此，谷歌很快发布了一篇博客文章解释了演示视频中的多模态交互过程，几乎承认了使用静态图片和多段提示词拼凑，才能达成这样的效果。此外，也有网友注意到，谷歌在演示视频中有一个重要的免责声明：为了演示效果减少了延迟，双子座的输出也被简化了。
　　即便如此，在不少专业人士看来，谷歌也终于推出了一款能和OpenAI“过两招”的大模型，作为人工智能的老牌厂商，谷歌“家底”丰厚，双子座也将成为GPT的有力竞争者。
　　剪辑了哪里？演示视频和实际差多少？
　　“你看谷歌最新大模型的视频演示了吗？多模态的切换是质变啊，特别是玩游戏地图那里，人都不一定能反应过来。”12月7日，从事网站开发的刘先生给贝壳财经记者发来了一段演示视频。
　　在这段令众多从业者兴奋的谷歌大模型双子座演示视频中，测试人员拿出了一张纸，双子座立刻回答“你拿出了一张纸”，随着测试人员在纸上绘画曲线、填色，双子座立刻“秒懂”，并随着测试人员的动作继续解说：“你在画曲线，看上去像是一只鸟，是一只鸭子，但蓝色的鸭子并不常见，鸭子大多数是棕色的，中文的鸭子发音是‘yazi’，中文有四种音调。”当测试者把一只蓝色的橡皮鸭子放到世界地图上时，双子座看到立刻说“这只鸭子被放到大海中间了，这里不常有鸭子。”
　　此后，测试人员又开始使用手势和双子座“互动”，当测试人员摆出了剪刀和布的动作时，双子座就“抢答”说“你在玩石头剪刀布”，之后，双子座还猜出了用手模仿的老鹰和狗的形象。
　　不过，贝壳财经记者在这段视频中发现了不少剪辑的痕迹，如石头剪刀布中，测试者出拳时的动作明显被剪去了不少。对此，谷歌发布了博客进行了“答疑解惑”：当给出双子座一张“出布”的图片，双子座的回答是“我看到了一只右手，手掌张开五指分开”；当给出“出拳头”的图片，双子座的回答是“一个人在敲门”；当给出“出剪刀”图片时，双子座的回答是“我看到一个食指和中指伸出的手。”只有把这三张图片放到一起，并问“你觉得我在干什么？”时，双子座才会回答“你在玩石头剪刀布”。
　　所以实际上，虽然双子座的回答依旧是真实的，但实际应用可能并没有演示视频中表现得那样“丝滑”。
　　来源：谷歌发布的“双子座”演示视频。
　　多模态能力是怎样“炼成”的？
　　通过这次演示，许多业界人士也承认谷歌确确实实在追赶OpenAI的过程中迈出了一步。实际上，在ChatGPT出现之前，谷歌一直在人工智能领域处于领先地位，不过，“既生瑜何生亮”， ChatGPT的一骑绝尘让谷歌压力山大，今年2月推出对标ChatGPT的bard但首秀“翻车”后，谷歌一直缺乏一个足够优秀的大模型来提振士气。
　　而“双子座”出现后，谷歌至少在多模态理解领域上体现出了一定的特色。“双子座是原生的多模态大模型，即其在训练的时候就是多模态的。谷歌在搜索、长视频、在线文档等本来就有强大的生态，另外谷歌显卡多，算力是OpenAI的好几倍，现在是在‘烧家底’来追赶OpenAI。”一位毕业于清华自动化专业的大模型从业者告诉贝壳财经记者。
　　具体来看，双子座模型包含三个版本：Gemini Ultra（超大杯），规模最大、能力最强的版本；Gemini Pro（大杯），可以适用于广泛的任务；Gemini Nano（中杯），将用于特定的任务以及移动设备。
　　除了多模态能力外，双子座在文本理解、代码运算等许多方面也表现不俗，在一个MMLU多任务语言理解数据集测试中，Gemini Ultra不光超越了GPT-4，甚至超越了人类专家。贝壳财经记者登录谷歌deepmind官网发现，“见证双子座——我们最有能力的大模型”这句话被放在了首页。
　　目前，用户可以从谷歌bard的端口进入体验Gemini Pro的能力，但贝壳财经记者测试发现，该能力仅提供给部分地区。通过一些国外网友的测试，用户既可以向双子座输入图片，也可以向双子座输入文本，而根据测试结果，Gemini Pro和同样具有多模态能力的GPT-4V在不少问题的回答上 “各有千秋”，并没有被GTP-4V碾压。
　　“根据我的观察，目前双子座在文本上的能力还是略逊于GPT4，但谷歌的技术实力仍然属于第一梯队。”上述大模型算法工程师表示。
　　他告诉贝壳财经记者，要想让大模型拥有理解图像视频声音的“多模态能力”，技术上可以看成把LLaVA （一种多模态预训练模型）的图像理解模块扩充到了视频和语音上，训练的时候额外加入视频、音频数据，“其实就是证明了，双子座第一次将视频和语音理解做进了大模型里面，验证了这两者在大模型上的可行性。”
　　“总体来说，本次谷歌大模型的发布符合预期，双子座的每个技术点之前都在学术界被验证过，可以找到相应的论文。未来，个人助手是一个很吸引人的场景，相比大语言模型，多模态大模型能够扮演一个能听能看能说能画的助手，更像一个人类了。”这名大模型算法工程师对贝壳财经记者说。
　　新京报贝壳财经记者罗亦丹

浏览过的版块