グーグル、OpenAI集中火力を狙撃しAIエージェントを猛攻

愿为素心人 · 发表于 2024-12-12 11:19:21

12月12日、OpenAIがChatGPTのアップルへの全面アクセスを発表した際、グーグルは次世代ビッグモデルのGemini 2.0を発表した。注目すべきは、Gemini 2.0はAIエージェント（AI Agent）のために生まれたことだ。
グーグルのSundar Pichai最高経営責任者は公開書簡で、「過去1年間、私たちはあなたの周りの世界をより深く理解し、より多くのステップで考え、あなたの監督の下であなたのために任務を遂行するために、より“エージェント”的なモデルを開発するために投資してきました。今日、私たちは新しい世代のモデルであるGemini 2.0を迎えることができて嬉しいです。これまでで最も強力なモデルです。オリジナル画像やオーディオ出力などのマルチモーダルの新しい進展、オリジナルツールの使用により、私たちは新しいAIエージェントを構築し、普遍的なAIアシスタントのビジョンに近づけることができます」と述べています。
グーグルのDeepMind CEOのDemis Hassabis氏も、2025年はAIエージェントの時代であり、Gemini 2.0は私たちのエージェントベースの仕事を支える最新世代モデルになると述べた。
現在、Gemini 2.0のバージョンは正式にオンライン化されていないが、グーグルは一部の開発者の内部テストに提供したと発表した。第1時間にオンライン化されたのはGemini 1.5 Proよりも強いGemini 2.0 Flash実験版で、実験版はすでにホームページ端で開放されており、GeminiユーザーはPC端を通じてGemini 2.0 Flashにアクセスでき、モバイル端は間もなく発売される。
グーグルが発表したベンチマークテストの結果によると、マルチモーダルな画像、ビデオ能力においても、コーディング、数学などの能力においても、Flash実験版のGemini 2.0表現だけがGemini 1.5 Proをほぼ全面的に上回り、応答速度が2倍に向上した。
グーグルの集中火力がAIエージェントを猛攻
グーグルの今回の更新により、AIが配置した氷河の一角を垣間見ることができるようになった--すべてはスマートボディのためだ。
1、より強力なマルチモーダル能力：
Gemini 2.0 Flash実験版は、画像、ビデオ、オーディオなどの多モード入力に加え、オリジナルに生成された画像とテキストの結合、および操作可能な多言語テキスト変換音声（TTS）オーディオなどの多モード出力にも対応している。
2、より専門的なAI検索：
グーグルはGemini Advancedにディープリサーチ（Deep Research）というスマートボディの新機能を発表した。この機能は、グーグルの検索専門性とGeminiの高度な推理能力を組み合わせ、複雑なテーマを中心に研究報告書を生成することができ、個人的な研究アシスタントに相当する。
3、複数のスマートボディの更新、オンライン：
Gemini 2.0ベースで構築されたスマートボディProject Astra：Astraの新機能を更新するには、多言語混合会話をサポートすること、GeminiアプリケーションでGoogle Lensと地図機能を直接呼び出すことができます。記憶能力が向上し、最大10分間の会話内記憶を備え、会話がより一貫している、新しいストリーミング処理技術とネイティブオーディオ理解能力により、このエージェントは人間の会話に近い遅延で言語を理解することができる。注目すべきは、アストラはグーグルが眼鏡プロジェクトのために行った展望プロジェクトだ。グーグルは、Project Astraを眼鏡などより多くの携帯端末に移植していると述べた。
ブラウザに適したインテリジェントボディProject Mariner（ハイマンプロジェクト）を公開する：このインテリジェントボディは、テキスト、コード、ピクチャなどのピクセルやWebページ要素を含むブラウザ画面上の情報を理解して推理し、Chrome拡張プログラムを通じてこれらの情報を利用してタスクを実行します。
開発者向けに作成されたAIプログラミングエージェントJulesをリリース：JulesサポートはGitHubワークフローに直接統合され、ユーザーは自然言語を使用して問題を記述することで、GitHubプロジェクトに統合できるコードを直接生成することができます。
リリースゲームエージェント：リアルタイムで画面を解読し、ユーザーのゲーム画面上の動作を通じて次の操作を提案したり、ゲームをしている間に直接音声でコミュニケーションしたりすることができます。
グーグルは来年初め、Gemini 2.0をより多くの傘下製品に拡大すると発表した。これまでに発表されたAI OverviewsはGemini 2.0を統合し、高度な数学式、マルチモーダルクエリ、プログラミングなどの複雑な問題処理能力を向上させる。今週は限られたテストが行われており、来年には普及し、より多くの国と言語に拡大する予定です。

		自动登录	找回密码
密码			立即注册

グーグル、OpenAI集中火力を狙撃しAIエージェントを猛攻

相关帖子

浏览过的版块