AIをロック解除する3 Dバラードの李飛飛氏、グーグルが一足先に

SNT · 发表于 7 일전

AIGCの3 Dコースが急に盛り上がってきた。
12月5日、グーグルのDeepMindは次世代世界モデルGenie 2をリリースし、「1枚の図で1分間ゲーム3 D世界を生成する」ことができ、ネットユーザーは「マトリックスが来た」と驚いた。
2日前、「AIゴッドマザー」李飛飛のWorld Labs剛官は「1枚の図が3 D世界を生成する」ことを支援する「空間知能」モデルを発表した。
世界モデルの議論ブームはソラに続いている。テキストから画像、そしてビデオとインタラクティブな3 D世界まで、AIGCは全体的に大きな飛躍を遂げた。
産業側にとって、創造的なデザインの仕事とインタラクティブな体験の仕事の流れは、いずれも強力な助力を迎えている。世界モデルはエージェント訓練、身体知能訓練、複雑なアニメーション制作、ゲーム制作、物理学モデリングなどの分野に、無限に多様で操作可能な3 D環境を提供することができる。
世界モデルの進展は、究極のAGI（汎用人工知能）がまた一歩近づいたことを意味するという産業関係者もいる。
GoogleはAGIへの広さを広げる
Genie 2はグーグルの第2世代世界モデルで、1枚の画像を与えることで、キーボードとマウスを通じて入力された操作可能な3 D環境を生成することができる。
画像内の役割は、キーボードによって識別され、インテリジェントな操作に応答することができます。
同じ開始フレームで、異なるモーション軌跡を生成できます。
Genie 2の前後の記憶は一貫性があり、周囲のシーンは見えなくても歪むことはありません。
貴重なことに、Genie 2は画面に基づいてリアルタイムで新しいシーンを生成することができ、最長で1分に達することができる。
このようなインタフェースは、ゲームと共通しています。
「ゲームは人工知能研究の分野で重要な役割を果たしている。それらの魅力的な画質、独自の挑戦的な組み合わせ、測定可能な進歩は、セキュリティテストとAI機能を推進する理想的な環境となっている」とグーグル側は告白した。「実際、ゲームはグーグルDeepMindにとってずっと重要であり、グーグルがエージェントを訓練する重要な道でもある」
しかし、身体知能を備えた訓練には、業界がネックになっている。
十分に豊富で多様なトレーニング環境が、身体知能の実際の進歩を促進することができる。21世紀の経済報道記者は人型ロボット産業者から、現在、汎化能力は人型ロボットの大きな痛点であることを知った。
Genie 2は、身体知能を備えて訓練のボトルネックを解決するのに役立つことが期待されている。
対話機能上、Genie 2は、風船の爆破、ドアの開放、爆薬バケツの射撃などの対話関係をモデル化することができる。
これにより、多様なインタラクションシーンを作成するのが簡単になりました。Genie 2が迅速に構築したさまざまなインタラクティブ体験プロトタイプを利用して、研究者は新しい環境を迅速に用いて具身知能AIを訓練し、テストすることができる。
例えば、Imagen 3を使用して生成された異なる画像プロンプトGenie 2は、紙飛行機、ドラゴン、イーグル、パラシュート飛行の違いをモデル化し、Genieが異なるオブジェクトを制御する際の能力をテストする。
つまり、AIエージェントは世界モデルの中で、ほぼ無限のトレーニングシーンとインタラクションシステムを得ることができる。
この研究はまだ初期段階だが、グーグルの研究者は、Genie 2は安全訓練具身知能の構造的な問題を解決する有効なルートであり、具身知能をロック解除する次の波能力であり、AGIへの到達に必要な広さと汎用性を実現することもできると考えている。
李飛飛は空間知能構想を実現した
World Labsは有名なAI学者、中国系科学者の李飛飛氏の最初の創業プロジェクトで、2024年1月に設立され、会社の創立半年で、推定値は10億ドルを超えた。
これは空間知能会社で、3 D世界と知覚、生成、対話できる大型世界モデルの構築に力を入れており、ユーザーのために変数を操作できる仮想3 D空間を生成し、「自分の3 D世界を作成する」ことを許可する計画だ。World Labsは、ソフトウェアがアーティスト、デザイナー、開発者、エンジニアを含むさまざまな事業者に役立つと指摘しています。
12月3日、World Labsはバージョン1.0のジョブを提出した。
1枚の画像から3 D世界を生成することができ、ユーザーは実質的に任意の画像に「入る」ことができ、3 Dで探索することができる。
このツールには、シミュレーション被写界深度の調整やシミュレーションドリーズームの調整、カメラの位置や視野の調整、オブジェクトカラーの変更、スポットライト効果の作成、自動運転の動的効果などのインタラクティブな方法をサポートする操作可能なスライダも搭載されており、視覚体験とより強い操作感を豊かにしています。
Genie 2と同様に、World Labsの空間知能モデルも3 D世界の整合性を保証することができ、シーンはより長く、一度生成するとずっと存在する;ユーザはリアルタイムでシーンを制御し、リアルタイムで移動することができ、シーン内の詳細を注意深く観察することができる。
世界モデルは3 D幾何学の基本的な物理規則に従い、リアリティと奥行き感を兼ね備え、効果的に内容の操作性と一致性を高め、映画、ゲーム、シミュレータ及び物理世界の他のデジタルプレゼンテーション形式の制作方式を変えた。
英偉達高級研究科学者のジム・ファン氏は、「GenaIはますます高度な次元の人間体験スナップショットを作成している。Stable Diffusionは2 Dスナップショット、Soraは2 D+時間次元のスナップショット、World Labsは3 D、完全没入型のスナップショットです。」
現在、Worldlabsは候補リスト申請を公開しており、一部のクリエイターはすでにこのAIツールを既存のワークフローに統合することができるようになっている。
映画・テレビ制作の分野では、AIの3 D叙事能力はコンテンツ創作の効率と品質を大幅に高め、制作コストを削減する。クリエイターは仮想シーンやキャラクターをより迅速に生成し、AIが生成した3 D世界を通じてより多様な物語の背景を構築し、視聴者に新しい視覚体験をもたらすことができる。
例えば、撮影前にWorldlabs技術を利用して仮想的な撮影シーンを生成し、監督やカメラマンがレンズやシーンのレイアウトをよりよく計画し、撮影効率と正確性を高めるのを支援します。
ゲーム業界にとって、3 D生成はゲーム開発により多くの可能性をもたらすだろう。開発者はAIを利用してよりリアルで繊細なゲームシーンやキャラクターを生成し、ゲームの没入感を高めることができる。
教育分野では、大モデルが生成した3 Dコンテンツは、より生き生きとした、直感的な教育シーンを作成し、科学、歴史などの学科の体験感を高めることができる。
李飛飛氏は、「空間知能」はAIパズルの重要な一環だと考えている。彼女は今年4月にTEDでの講演で、「視覚は洞察力になり、洞察力は理解力になり、理解力は行動を促した。これらすべてが知能を生み出した」と語った。
Genie 2とWorldlabsが代表する空間知能分野は、AI技術の発展の重要な新しい方向である。それは伝統的なAIの2次元平面上の限界を突破し、AIの知覚と理解能力を3次元空間に広げ、より直感的で、相互作用の本質にも近い。

		自动登录	找回密码
密码			立即注册

AIをロック解除する3 Dバラードの李飛飛氏、グーグルが一足先に

相关帖子