Pika融資、快手上線可霊アップルのAI製品はなぜ「冷かまどを焼く」のか。
虚空一粒沙2017
发表于 2024-6-11 19:29:06
1385
0
0
アップル(AAPL.US)WWDC開発者大会でApple IntelligenceというAI製品が発売されたが、同日の株価終値は1.91%下落した。興味深いことに、6月11日のWindデータのソラ指数(8841756.WI)は1.55%上昇した。
なぜこのような違いがあるのでしょうか。
アップルは現在のブームを避けるビデオ大モデルを選び、発売されたAI関連アップデートは文字分野に重点を置いているが、国内の概念株の上昇幅は最近の文生ビデオ大モデルブームと密接に関連している。海外ではスターAIビデオ生成会社のPikaが新たな融資を完了し、総額8000万ドルのBラウンド融資を完了すると、会社の推定値は4億7000万ドルを超える。国内では快手(1024.HK)のような「可霊」動画生成大モデルが正式にオンライン化され、Soraと似た技術路線が採用されている。
複数の業界関係者から見ると、アップルはビデオ分野の統合ではなくAI文字に焦点を当てており、コストや実用性などの面で考慮していることが多い。
アップルはソラの「戦局」を避ける
アップルが発売した大言語内蔵モデルは、iPhone、iPad、Macを理解して言語と画像を生成することができる。SiriはChatGPTにアクセスすることで、意味検索機能を持ち、写真、カレンダー、ファイル、メールなどのコンテンツをインテリジェントに検索することができ、またほとんどのChatGPTを使用する機能を登録免除することができる。
天風国際証券アナリストの郭明錤氏は、アップルが新たに発表したApple Intelligenceスイートは生態統合とインタフェース設計の優位性を示し、ユーザーには実用的だが、投資家には花を添えるだけで、後者はオリジナルで使わなければならない機能を見ることを期待していると簡評した。
壁面知能首席研究員の韓旭氏は記者団に対し、アップルはオペレーティングシステムへのアクセスの観点から、主にAIを必要として人の意図を理解し、システムレベルのインタフェースを呼び出す必要があり、これらの需要はソラの出発点と完全に一致していないが、多モード入力テキスト出力の大モデルと比較的一致していると述べた。Soraのような画像やビデオを生成するモデルは、現在ではソフトウェア、特に視覚処理ソフトウェアと結合したほうが適切です。
なぜアップルはソラの「戦局」に加わらなかったのか。
あるAIGCビデオアプリケーションメーカーの関係者は記者に対し、製品の考え方と経営の観点から言えば、アップルは相対的に成熟しており、可視性よりも優れた分野に投入されるだけだと述べた。携帯電話のハードウェア相互作用の面では、文字の使用シーンが多く、研究開発への投入から実際の推理コストの面では、アップルの現在の技術蓄積にとっても相対的に性価格比が高い。
別の業界技術者によると、今日のLLMサービス(大規模言語モデルサービス)は文字分野で基本的に保本を実現しており、文生図分野は必ずしもそうではなく、文生ビデオ分野は必ず赤字になるという。これも今回のアップルWWDC大会がしばらくビデオAIGCの能力を統合していない重要な原因である。
アップルの動きに対し、国内の大モデルコースは現在、ビデオ分野に大きな期待を寄せている。今年4月、清華大学人工知能研究院の副院長、生数科学技術連合創始者で首席科学者の朱軍教授は清華大学と生数科学技術を代表して、中国初のビデオ大模型Viduを発表した。
記者はソラ代表の動画文案をヒントワードとして、快手の「可霊」を入力し、生成動画の対比を行い、「東京ストリートガールウォーク」を例に挙げた。当時ソラ動画には女性が歩く過程で足が変形し、足が交差して転位する際に錯乱し、右足が2回連続で前方を歩くなどの誤りがあった。快手の「可霊」にも同様の問題がある。
天風証券は、快手3 D VAE+DiTアーキテクチャの計算力、モデル、データ品質の向上はすでに商用を実現できる結果を示しており、同時に時間長、比例のカスタマイズは生成素材の可用性を大幅に強化していると考えている。いくつかの複雑な意味理解ではSoraに劣るが、やや簡単なシーンでは差は大きくない。
マルチモーダルによる中国大モデルのサーキット機会
優れたビデオ生成モデルには、モデル設計、データ保障、計算効率、モデル能力の拡張という4つのコア要素を考慮する必要があります。
Soraの存在する未熟な点について、OpenAIは、Soraは複雑なシーンの物理原理を正確にシミュレーションすることが困難である可能性があり、因果関係を理解できない可能性があり、提示された空間の詳細を混同する可能性があり、特定のカメラの軌跡に従うなど、時間の経過とともに発生したイベントを正確に記述することが困難である可能性があると述べていた。
しかし、これはもっと普遍的な問題のようだ。愛詩科学技術の創始者である王長虎氏はこれまで、現在のビデオ大モデルはビデオデータから直接物理知識を学習しているが、実際のビデオには多くの情報が含まれており、それぞれの物理法則を正確に学習するのは難しいと述べてきた。モデルに視覚画面を入力すると同時に、人手、動物のしっぽなどの3 Dモデリング情報を制約として単独で加えることで、大モデル学習を支援し、効果を最適化することができる。
可霊大モデルは原生文生ビデオ技術路線を採用し、画像生成+タイミングモジュールの組み合わせを代替した。現在、暗黙空間符号化/復号化において、主流のビデオ生成モデルは通常Stable Diffusionの2 DVAEを用いて空間圧縮を行うが、これはビデオにとって明らかな情報冗長性が存在する。そこで、快手大モデルチームは3 D VAEネットワークを自己研究し、訓練性能と効果のバランスを探ろうとした。また、タイミング情報モデリングにおいて、快手大モデルチームは、時空モデリングモジュールとして全注意メカニズム(3 D Attention)を設計した。
生数科学技術の唐家渝CEOは、多モード大モデルの研究はまだ初期段階にあり、技術の成熟度はまだ高くないと述べた。これはホットな言語モデルとは異なり、海外では一時代をリードしている。そのため、唐家渝は言語モデルで「巻く」よりも、多モードが国内チームが大モデルコースを占有する重要な機会だと考えている。この点は啓明創投パートナーの周志峰氏と同じ点があり、現在の大モデルは従来の純言語モデルから多モードの探索に向かっていると考えている。
北京智源人工知能研究院の林詠華副院長兼総技師は第一財経記者に対し、中国が多モード分野でカーブして追い越す可能性はあるが、多モードモデルの成功要素は依然として計算力、アルゴリズム、データであると述べた。現在のアルゴリズムの面では、中米チームの間の違いはそれほど大きくなく、業界にも計算力問題を解決する方法があるが、大量の高品質データを取得するには、依然として難しい。
CandyLake.com is an information publishing platform and only provides information storage space services.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
You may like
- 秋夕(チュソク、旧暦8月15日の節句)のオンラインショッピングピークにおける野菜購入月餅の販売台数は前年同期比30%超増加する見込み
- 大雪網易「複合」後のゲームが徐々にオンライン化『ストーブストーン伝説』国服が本日正式に復帰
- テクノロジーインテルは年末までに85億ドルの融資を完了する見込みで、9月には109種類の国産オンラインゲームが承認された
- 官宣!OpenAIが66億ドルの融資を独占最新推定値はゴールドマン・サックスの時価総額を上回る
- 信也科技パキスタン業務プラットフォームが正式にオンラインに
- 商品差異率は70%に達する見込みで、年内には美団上の24 Hスーパー800店を超える
- アップルのAIはいつ国内でオンラインになりますか。クックが応答!
- 中証A 500場外基金の販売開始京東金融オンライン専用区はすでに予約を開始している
- 京東七鮮の「スーパーブレーク」による消費ブーム72時間の成約ユーザー数、オンライン注文数は前年同期比3桁増
- 再鼎医薬は784万株の預託株式を発売する予定で、融資額は2億3000万ドルを超えない見通しだ
-
11월 14일, 세계예선 아시아지역 제3단계 C조 제5라운드, 중국남자축구는 바레인남자축구와 원정경기를 가졌다.축구 국가대표팀은 바레인을 1-0으로 꺾고 예선 2연승을 거두었다. 특히 이번 경기 국내 유일한 중계 ...
- 我是来围观的逊
- 7 시간전
- Up
- Down
- Reply
- Favorite
-
계면신문기자 장우발 4분기의 영업수입이 하락한후 텐센트음악은 다시 성장으로 돌아왔다. 11월 12일, 텐센트음악은 최신 재보를 발표했다.2024년 9월 30일까지 이 회사의 3분기 총수입은 70억 2천만 위안으로 전년 ...
- 勇敢的树袋熊1
- 그저께 15:27
- Up
- Down
- Reply
- Favorite
-
본사소식 (기자 원전새): 11월 14일, 다다그룹 (나스닥코드: DADA) 은 2024년 3분기 실적보고를 발표했다. 수치가 보여준데 따르면 고품질발전전략에 지속적으로 전념하고 사용자체험을 끊임없이 최적화하며 공급을 ...
- 家养宠物繁殖
- 어제 15:21
- Up
- Down
- Reply
- Favorite
-
11월 12일 소식에 따르면 소식통에 따르면 아마존은 무료스트리밍서비스 Freevee를 페쇄하고 일부 종업원과 프로를 구독서비스 Prime Video로 이전할 계획이다. 올해 초 아마존이 내놓은 몇 편의 대형 드라마의 효 ...
- 度素告
- 그저께 13:58
- Up
- Down
- Reply
- Favorite