첫 페이지 美股新闻 본문
  距离谷歌推出自己的最强大模型Gemini已将近一周时间,不少国内AI公司都在试图探究,这款大模型到底具有多大的威力。

  和此前业内推出的很多大模型不同,谷歌Gemini此次绕开了文字环节,直接靠视觉和声音来理解世界,尽管其现场演示demo曾涉嫌造假和过分夸大能力。
  Gemini的演示视频让大量用户误以为Gemini能实时读取视频信息,进而通过理解回答用户问题,但实际上,谷歌员工是通过提示词才让Gemini生成了这些回复。图源:谷歌
  为了了解Gemini的出现会对OpenAI以及其他AI公司产生何种影响,界面新闻近日走访了多家头部生成式AI公司的业务负责人及开发者,他们认为Gemini的最大特色便是“原生”的多模态大模型。
  “理论上说,原生多模态比‘拼接’多模态大模型效果更好,因为后者在训练阶段极易遇到瓶颈。”循环智能的AI负责人陈虞君告诉界面新闻记者,由于目前还未深度使用过,Gemini的实际优势有待进一步了解。
  多位大模型初创开发人员表示,即便Gemini系列最大尺寸的Ultra尚未正式推出,Gemini已经在文本方面展示出和GPT-4同水准的能力。
    在谷歌官方释出的基准测试集中,Gemini Ultra在大部分文本测试中的表现都优于GPT-4,在几乎全部多模态任务测试中的表现都优于GPT-4v。如果以GPT-4的测试条件为基准,Gemini Ultra在MMLU上的表现弱于GPT-4,但仍然优于其他主流大模型。图源:Gemini Technical Report 中信建投研报
  在Gemini的演示视频中,这个大模型仿佛可以实时观察人类的行为,并给予反馈,例如可以完美描述出一只鸭子从草图到填色的过程;可在换杯游戏中追踪纸团,辅助进行数学、物理的解题;能够辨别手势,做课堂动手类游戏互动,还可以重新排列行星草图。  
  开发者们普遍认为,无论造假成分几何,Gemini已经展现出较强的理解、推理、创作和实时互动能力,实现了对OpenAI多模态模型GPT-4v的全面超越。谷歌的回应也基本被业界所接受,“所有用户提示和输出都是真实的,只是为了简洁起见进行了缩短。”
  三个月前OpenAI低调发布的GPT-4v能做多模态任务,例如理解和图像生成,但效果并不太好,并且,其关键的推理能力是和其他模型配合完成。而抽象推理能力本身,是大模型最为关键的能力。
  图源:中信建投
  尹伯昊对界面新闻解释称,GPT-4v和Gemini是基于两种完全不同的训练逻辑,“GPT-4v它是一个近视眼,看东西不清楚,因此性能也不好,是典型的外挂式方案。Gemini则是把多个模态混合在一起训练。”
  但在一位多模态大模型公司算法负责人看来,Gemini应该还没有全面超越GPT-4,“在评测时,GPT-4和Gemini在文本生成上没有完全形成公平对比。”
  另有不少网友实测表示,Gemini Pro在以图搜物和精准搜图方面的能力吊打了GPT-4。对于这一情况,追一科技刘云峰认为,谷歌的搜索业务天然具有文字和其他模态对齐的数据,确实更利于训练原生多模态大模型。
  Gemini能够正确识别学生手写答案并验证物理问题的推理过程,图源:Gemini Technical Report
  谷歌在人工智能领域的任何大动作都会解锁市场的新兴探索方向,但在Gemini发布之前,AI模型全面多模态化趋势已日渐明朗。
  早在3月GPT-4发布之初,OpenAI就表示将在该次迭代中加入多模态整合。9月开始,Runway、 Midjourney、Adobe和Stability AI等明星公司陆续有多款多模态产品问世。
  国内方面,百度的文心大模型4.0在跨模态文生图领域有明显进展,国内公开融资最高的大模型初创智谱AI,其生成式AI助手智谱清言在视觉领域颇具优势。
  多位开发者都告诉界面新闻,多模态大模型是行业内公认的明确发展方向,不会因为谷歌的大动作而“幡然醒悟”,但Gemini的到来会刺激国内公司加速研发。前述多模态大模型公司算法负责人也指出了Gemini的局限性,“其在图像生成上的能力以及视频生成、图像生成上面的参考意义有限。”
  就目前来看,还很难得出Gemini全面超越GPT-4的结论,但谷歌成为OpenAI的最强对手已是不争的事实。其也用Gemini证明了一个道理:任何多模态大模型都必须依赖大语言模型的训练过程,才能实现真正的多模态AI。
您需要登录后才可以回帖 登录 | Sign Up

本版积分规则

  • 11월 14일, 세계예선 아시아지역 제3단계 C조 제5라운드, 중국남자축구는 바레인남자축구와 원정경기를 가졌다.축구 국가대표팀은 바레인을 1-0으로 꺾고 예선 2연승을 거두었다. 특히 이번 경기 국내 유일한 중계 ...
    我是来围观的逊
    3 시간전
    Up
    Down
    Reply
    Favorite
  • "영비릉: 2024회계연도 영업수입 동기대비 8% 감소"영비릉은 2024회계연도 재무제보를 발표했다.2024 회계연도 매출은 149억5500만 유로로 전년 동기 대비 8% 감소했습니다.이익은 31억 500만 유로입니다.이익률은 ...
    勇敢的树袋熊1
    3 일전
    Up
    Down
    Reply
    Favorite
  • 계면신문기자 장우발 4분기의 영업수입이 하락한후 텐센트음악은 다시 성장으로 돌아왔다. 11월 12일, 텐센트음악은 최신 재보를 발표했다.2024년 9월 30일까지 이 회사의 3분기 총수입은 70억 2천만 위안으로 전년 ...
    勇敢的树袋熊1
    그저께 15:27
    Up
    Down
    Reply
    Favorite
  • 본사소식 (기자 원전새): 11월 14일, 다다그룹 (나스닥코드: DADA) 은 2024년 3분기 실적보고를 발표했다. 수치가 보여준데 따르면 고품질발전전략에 지속적으로 전념하고 사용자체험을 끊임없이 최적화하며 공급을 ...
    家养宠物繁殖
    어제 15:21
    Up
    Down
    Reply
    Favorite
从军行老大屹 新手上路
  • Follow

    0

  • Following

    0

  • Articles

    1