OpenAI「言ってはいけない秘密」が公開された?YouTubeデータトレーニングモデルを使用した取得方法は不名誉である
愿为素心人
发表于 2024-3-19 21:47:30
222
0
0
GPTの大モデルが階段を上り続けると同時に、OpenAIが直面している非難は少なくないようだ。マスクが何度も問い詰めてきた「オープンソース」の問題を除いて、OpenAI訓練大モデルのデータソースは不明で、あるいはすでにこの会社のために権利侵害訴訟の地雷を埋めている。
現在のAI大モデルの訓練では、データ端に巨大なデータ量の大規模なデータセット投与が必要である。公開資料によると、OpenAIのデータソースには、書籍、Webページ、ニュース記事、学術論文など、インターネット上のさまざまなリソース、パートナーとサードパーティのデータプロバイダが提供するデータセット、医療、法律、科学文献など、購入した特定分野のデータ、合成データ、OpenAIはそのモデルを使用してデータを自己生成する可能性があり、例えばモデル自身の出力によるモデルの訓練と改善、クラウドファンディングとコミュニティ貢献のためのデータ。
データソースは最も重要な問題ではなく、OpenAIがこれらのデータをどのように入手するかに焦点が当てられている。
■盗んだ?
Business Insiderが報じたように、OpenAIが大量のYouTubeビデオトレーニングモデルを使用することはすでに「公開の秘密」であり、受益製品には新たに発売された文生ビデオ分野モデルSoraが含まれている。謎はOpenAIがどのようにして十分なYouTubeコンテンツを取得するかにある。
YouTubeはグーグルの子会社であることを知っておく必要があります。2006年、YouTubeはグーグルに16億5000万ドルで買収され、グーグルの支援を受けて世界最大の動画共有プラットフォームに急成長した。
グーグルはAIの発展に力を入れており、OpenAIの主要なライバルの1人であり、自宅の金鉱を無償で対家に提供することはもちろんない。YouTubeはすでに商業目的でのダウンロードを禁止しており、YouTubeの動画データを大量にダウンロードする行為も制限する。このような厳格な制御により、個人ユーザーも影響を受けており、YouTube動画を1つダウンロードしても、速度が非常に遅く、完成までに数時間かかるという声もある。
一般的な推測の1つは、OpenAIが爬虫類を使って、YouTubeのデータを「盗んだ」ということだ。OpenAIは、大きなモデルの訓練にデータをキャプチャして収集するためのGPTbotというネットワーク爬虫類ロボットを発売したことを認めている。
OpenAI幹部は関連問題について言葉を濁し、側面からも「データ泥棒」の印象を深めた。ウォールストリート・ジャーナルは最近、YouTube、インスタグラム、Facebookなどからの動画を使ってソラを訓練しているかどうかをOpenAIのMira Murati最高技術責任者に尋ねた。
「私は実際には確信していません」と彼女は言った。トレーニングデータの出所を再び問われると、Muratiは「詳細は明らかにしない」と答えを拒否した。
Business Insiderの最新記事によると、OpenAIの運営に詳しいある人は、同社はトレーニングデータを取得するために厳密に保護されたチームを割り当てており、これらのデータをどのように取得するかについては秘密にしていると述べている。
■フェンスが生い茂るAI野原
爬虫類を使用する行為はグーグルには許されず、同社傘下のYouTubeはロボットや他の自動化方法で動画をキャプチャすることを禁止している。
しかし、OpenAIにとって、グーグルのサービス条項に違反する方法でYouTube動画にアクセスすることは違法ではないかもしれない。米国の判例法と「合理的な使用」の原則は、企業に異なる方法でオンラインコンテンツを自由に使用する権利を与えている。
簡単に言えば、グーグル、OpenAI、その他の科学技術会社は、著作権保護されたコンテンツを用いた人工知能モデルの訓練も合法的だと考えている。規制当局もこれについて明確に規定していない。人工知能の競技場は依然として広大な原野であり、データに関するゲームのルールはまだ決まっていないか、無視されている。
各メーカーは先を争って入場し、独自の技術フェンスを構築した。
OpenAIや他の大モデル開発者はこれまで、発表された研究論文で訓練データソースを公開してきたが、競争が激化するにつれて、このやり方はもはや盛んではない。誰もが自分の技術の秘訣を残して、相対的な優位性を求めている。特に有利な地位を占めているヘッドメーカーは、オープンソース争いもメーカーが切り札を自留しようとしていることの表れだ。
唯一確定したのは、生成式AI技術のさらなる反復に伴い、類似したトラブルが多いか少ないかだけである。
大企業は矢面に立たされやすく、データを例にとると、責任を負い、高いデータ調達コストを負担しても、データの完全なコンプライアンスを実現するのは容易ではありません。パラメータの量が大きいため、大モデルは分散コンピューティングやクラウドサービスなどの技術を利用して訓練と配置を行う必要があり、またデータが盗まれたり、改ざんされたり、悪用されたり、漏洩されたりするリスクが増加します。
プライバシー保護と技術革新をどのようにバランスさせ、どのように企業の生存とコンプライアンス生産の間の最適な経路を見つけるかは、すでに生成型AI事業に力を入れている企業ごとに避けられない問題である。
CandyLake.com is an information publishing platform and only provides information storage space services.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
You may like
- 何小鹏:小鹏车端大模型明年目标实现百公里接管1次
- 何小鵬:小鵬車端大模型来年100キロ接収1回を目標
- 撞上数据墙?OpenAI模型提升速度放缓 着手调整开发策略
- 李彦宏:文心大模型日均调用量超15亿 较一年前增长30倍
- 李彦宏:文心大模型の1日平均使用量が15億を超え、1年前より30倍増加
- DeepMind开源生物分子预测模型 诺奖成果将掀起AI制药浪潮?
- 百度李彦宏:过去24个月,AI行业最大变化是大模型基本消除了幻觉
- 「AI新世代」大模型厂商齐“卷”智能体,李彦宏称将迎来“靠想法就能赚钱时代”
- 李彦宏说大模型幻觉基本消除了 实测文心一言到底怎么样?
- 百度发布两款“超级有用”应用,李彦宏:大模型变得可用可信
-
11월 14일, 세계예선 아시아지역 제3단계 C조 제5라운드, 중국남자축구는 바레인남자축구와 원정경기를 가졌다.축구 국가대표팀은 바레인을 1-0으로 꺾고 예선 2연승을 거두었다. 특히 이번 경기 국내 유일한 중계 ...
- 我是来围观的逊
- 5 시간전
- Up
- Down
- Reply
- Favorite
-
계면신문기자 장우발 4분기의 영업수입이 하락한후 텐센트음악은 다시 성장으로 돌아왔다. 11월 12일, 텐센트음악은 최신 재보를 발표했다.2024년 9월 30일까지 이 회사의 3분기 총수입은 70억 2천만 위안으로 전년 ...
- 勇敢的树袋熊1
- 그저께 15:27
- Up
- Down
- Reply
- Favorite
-
본사소식 (기자 원전새): 11월 14일, 다다그룹 (나스닥코드: DADA) 은 2024년 3분기 실적보고를 발표했다. 수치가 보여준데 따르면 고품질발전전략에 지속적으로 전념하고 사용자체험을 끊임없이 최적화하며 공급을 ...
- 家养宠物繁殖
- 어제 15:21
- Up
- Down
- Reply
- Favorite
-
11월 12일 소식에 따르면 소식통에 따르면 아마존은 무료스트리밍서비스 Freevee를 페쇄하고 일부 종업원과 프로를 구독서비스 Prime Video로 이전할 계획이다. 올해 초 아마존이 내놓은 몇 편의 대형 드라마의 효 ...
- 度素告
- 그저께 13:58
- Up
- Down
- Reply
- Favorite