国内開発者はグーグルのGeminiを見る:「偽造」論争に陥っているが、OpenAIを超える道を見つけた
梦幻旅程
发表于 2023-12-13 11:05:12
4553
0
0
グーグルが独自の最強モデルGeminiを発売してから1週間近くが経ち、多くの国内AI会社がこの大型モデルがどれだけ威力を持っているのかを探究しようとしている。
これまで業界で発売されてきた多くの大モデルとは異なり、グーグルのGeminiは今回、文字のコーナーを回避し、視覚と音声で世界を理解しているが、デモの実演には偽造や誇張能力が疑われていた。
Geminiのデモ動画は、Geminiがリアルタイムで動画情報を読み取ることができると多くのユーザーに誤解させ、さらに理解を通じてユーザーの質問に答えるようにさせたが、実際には、グーグル社員は提示語を通じてGeminiにこれらの返信を生成させた。ソース:Google
Geminiの出現がOpenAIや他のAI会社にどのような影響を与えるかを知るために、インタフェースニュースはこのほど、Geminiの最大の特色は「ネイティブ」のマルチモーダルモデルだと考えている複数のヘッドジェネレーションAI会社の業務責任者や開発者を訪問した。
「理論的には、原生多モードは『スプライン』多モード大モデルよりも効果が高い。後者は訓練段階でボトルネックに遭遇しやすいからだ」と、循環知能のAI責任者である陳虞君氏はインタフェース新聞記者に語った。まだ深く使用したことがないため、Geminiの実際の利点はさらに理解する必要がある。
複数の大モデルの草創開発者によると、Geminiシリーズ最大サイズのUltraが正式に発売されていなくても、Geminiはテキスト面でGPT-4と同レベルの能力を示しているという。
Googleが公式にリリースしたベンチマークテストセットでは、Gemini UltraはほとんどのテキストテストでGPT-4よりも優れており、ほとんどのマルチモーダルタスクテストでGPT-4 vよりも優れています。GPT-4の試験条件を基準にすると、MMLU上でのGemini UltraのパフォーマンスはGPT-4よりも弱いが、他の主流大モデルよりも優れている。図源:Gemini Technical Report中信建投研報
Geminiのデモ動画では、この大きなモデルは人間の行動をリアルタイムで観察し、フィードバックを与えることができるように見えます。例えば、アヒルがスケッチから塗りつぶされるまでの過程を完璧に記述することができます。コップ交換ゲームで紙塊を追跡し、数学、物理の問題解決を支援することができます。ジェスチャーを判別したり、教室の手遊びのインタラクティブをしたり、惑星のスケッチを並べ替えることができます。
開発者たちは、偽造成分の幾何学にかかわらず、Geminiはすでに強い理解、推理、創作とリアルタイムの相互作用能力を示し、OpenAIマルチモーダルモデルGPT-4 vの全面的な超越を実現したと考えている。グーグルの対応もほぼ業界に受け入れられており、「すべてのユーザーのヒントと出力は真実であり、簡潔のために短縮されただけだ」としている。
3ヶ月前にOpenAIが低調に発表したGPT-4 vは、理解や画像生成などの多モードタスクを行うことができたが、効果はあまりよくなく、他のモデルと協力して完成することが重要な推論能力だった。抽象推論能力自体は、大きなモデルの最も重要な能力である。
図源:中信建投
尹伯昊氏はインタフェースニュースに対し、GPT-4 vとGeminiは2つの全く異なる訓練ロジックに基づいていると説明し、「GPT-4 vは近視眼で、物がはっきり見えないため、性能も悪く、典型的な外掛け式の方案だ。Geminiは複数のモダリティを混ぜて訓練する」と述べた。
しかし、マルチモーダルモデル企業のアルゴリズム責任者によると、GeminiはまだGPT-4を全面的に超えていないはずで、「評価時、GPT-4とGeminiはテキスト生成上で完全に公平な対比を形成していなかった」という。
また、Gemini Proは物を探す能力と正確な図を探す能力で簡単にGPT-4に勝ったというネットユーザーの実測も少なくない。この状況について、追一科技の劉雲峰氏は、グーグルの検索業務には文字とその他のモダリティ整列のデータが天然にあり、原生多モダリティ大モデルの訓練に有利であると考えている。
Geminiは学生の手書きの答えを正確に識別し、物理問題の推理過程を検証することができ、図源:Gemini Technical Report
グーグルは人工知能分野のいかなる大きな動きでも市場の新興探索方向をロック解除するが、Geminiが発表される前にAIモデルの全面的な多モーダル化の傾向が明らかになってきた。
3月のGPT-4リリース当初から、OpenAIはこの反復にマルチモーダル統合を加えることを表明していた。9月から、ランウェイ、Midjourney、Adobe、Stability AIなどのスター企業が続々とマルチモーダル製品を世に送り出している。
国内では、百度の文心大模型4.0がモーダル文生図分野にまたがって明らかに進展し、国内で公開融資が最も高い大模型は智譜AIを創始し、その生成式AIアシスタントの智譜清言は視覚分野で非常に優勢である。
複数の開発者は、マルチモーダルモデルは業界内で公認されている明確な発展方向であり、グーグルの大きな動きによって「ぱっと悟る」ことはないが、Geminiの到来は国内企業の研究開発の加速を刺激すると界面ニュースに語っている。前述のマルチモーダルモデル企業アルゴリズム責任者もGeminiの限界を指摘し、「画像生成における能力及びビデオ生成、画像生成における参照意義は限られている」と述べた。
今のところ、GeminiがGPT-4を全面的に超えるという結論は出にくいが、グーグルがOpenAIの最強のライバルになるのは間違いない事実だ。また、Geminiを用いて、真の多モードAIを実現するためには、どの多モード大モデルも大言語モデルの訓練過程に依存しなければならないことを証明した。
CandyLake.com is an information publishing platform and only provides information storage space services.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
You may like
- 百度の4分の1のコードはAIプログラマーが作成したもので、現在の個人開発者は百度Comateを無料で使用できる
- グーグルI/O開発者大会展望:OpenAI、マイクロソフト挟撃合戦に遭遇し一触即発
- マイクロソフト開発者大会が一気に50以上のアップデートを発表、ウルトラマン圧巻のネタバレOpenAI新モデル
- アップル開発者大会が今夜開幕iOS 18が登場:AI「ファミリーバケツ」は来るのか?
- 重ポンド!アップルがAI機能テスト版を発表ChatGPTに組み込まれていないのは有料開発者向けのみ
- 有料開発者向け!「アップルインテリジェント」の初ショーSiriなどが全面的にアップグレードされたが、ChatGPTは統合されていない。今回アップルはインビタを「捨てた」
- アップルのクックCEO:開発者がAppleIntelligenceのテストを開始
- アップルはEU規制に対応EU開発者は製品を自主的に普及させることができる
- 貝好家は11億元近くを成都の土地で自主的にハイエンド住宅プロジェクトを運営する貝殻:開発者ではない
- IBMが新バージョンの企業AI大モデルを発表、中国開発者はオープンソースコミュニティを通じて入手可能
-
11월 14일, 세계예선 아시아지역 제3단계 C조 제5라운드, 중국남자축구는 바레인남자축구와 원정경기를 가졌다.축구 국가대표팀은 바레인을 1-0으로 꺾고 예선 2연승을 거두었다. 특히 이번 경기 국내 유일한 중계 ...
- 我是来围观的逊
- 1 시간전
- Up
- Down
- Reply
- Favorite
-
"영비릉: 2024회계연도 영업수입 동기대비 8% 감소"영비릉은 2024회계연도 재무제보를 발표했다.2024 회계연도 매출은 149억5500만 유로로 전년 동기 대비 8% 감소했습니다.이익은 31억 500만 유로입니다.이익률은 ...
- 勇敢的树袋熊1
- 3 일전
- Up
- Down
- Reply
- Favorite
-
계면신문기자 장우발 4분기의 영업수입이 하락한후 텐센트음악은 다시 성장으로 돌아왔다. 11월 12일, 텐센트음악은 최신 재보를 발표했다.2024년 9월 30일까지 이 회사의 3분기 총수입은 70억 2천만 위안으로 전년 ...
- 勇敢的树袋熊1
- 그저께 15:27
- Up
- Down
- Reply
- Favorite
-
본사소식 (기자 원전새): 11월 14일, 다다그룹 (나스닥코드: DADA) 은 2024년 3분기 실적보고를 발표했다. 수치가 보여준데 따르면 고품질발전전략에 지속적으로 전념하고 사용자체험을 끊임없이 최적화하며 공급을 ...
- 家养宠物繁殖
- 어제 15:21
- Up
- Down
- Reply
- Favorite