涉17万个视频!英伟达等巨头被曝违规使用YouTube数据训练模型
MPA
发表于 2024-7-17 15:06:11
152
0
0
当地时间7月16日,据外媒报道,包括苹果、英伟达、Salesforce和Anthrophic在内的一些大型科技公司,被曝在训练AI模型时使用了来自谷歌旗下视频网站YouTube的未授权数据。这些公司使用了一个由第三方提供的数据集,其中包含从YouTube上抓取的大量视频字幕文本,违反了YouTube禁止从平台上未经许可抓取内容的规定。
报道指出,这些科技公司在训练AI模型时都使用了一个名为“YouTube Subtitles(YouTube字幕)”的数据集,大小为5.7GB,包含4.89亿个单词,来自Youtube上超过4.8万个频道中的17.35万个视频。该数据集由视频字幕的纯文本组成,包括视频博主上传的部分和Youtube自动转录的文本,除了英语外,通常还附带日语、德语和阿拉伯语等语言的翻译。
非营利性组织EleutherAI是争议数据集的创作者,公司尚未对此事作出回应。根据官网介绍,EleutherAI的目标是“降低AI开发的门槛,通过训练和发布模型,让大家接触到尖端的AI技术”。此前,EleutherAI发布了名为“Pile”的数据汇编,其中的大部分数据集都是对公众开放的,包括YouTube Subtitles。
资料显示,在苹果于今年4月发布端侧小模型OpenELM模型的几周之前,公司就使用了Pile进行训练。不过,值得注意的是,苹果自己并没有下载这些数据。因此,从技术层面来说,是EleutherAI违反了YouTube的使用条款。
AI初创公司Anthropic的一位发言人证实,Pile数据集已被用于训练公司的生成式AI助手Claude,而YouTube的相关条款仅涉及“直接使用其平台”,建议与Pile的原作者讨论任何违反YouTube服务条款的行为。苹果、英伟达、Salesforce等其他公司尚未对此事作出回应。
此次事件影响到的创作者包括Marques Brownlee、MrBeast和PewDiePie等知名博主,以及《纽约时报》、英国广播公司(BBC)和美国ABC News等大型新闻出版商。另外,数据集中的一些材料宣传了“地平说”等阴谋论,甚至还包含了已被删除的视频的内容。现在,Pile已从官方下载网站上下架,但仍可通过文件共享服务访问。
对此,知名科技博主Marques Brownlee在X(原推特)平台上表示:“苹果从几家公司获取了他们AI所需的数据,其中一家从YouTube视频中抓取了大量数据/转录文本,包括我的视频。从技术上来说苹果没有‘犯错’,他们没有主动抓取数据。但这将是一个长期存在的问题。”
Marques Brownlee的推文。来源:X平台
虽然苹果和其他公司或许是使用了公开的数据集,并没有违规行为,但此次事件让人们又一次关注到AI训练背后的数据问题。今年年初,YouTube的母公司谷歌被曝利用该平台的视频来训练旗下模型,谷歌当时回应称,这种行为没有违反平台与创作者的协议。
今年3月,OpenAI首席技术官米拉·穆拉蒂(Mira Murati)在接受采访时还曾对文生视频模型Sora的训练数据来源含糊其词。4月,YouTube首席执行官尼尔·莫汉(Neal Mohan)在采访中表示,他并没有直接证据能够证明OpenAI确实使用了YouTube的视频来完善其文生视频AI工具Sora,如果真的使用了,那就“明显违反”了YouTube平台的使用条款。
CandyLake.com is an information publishing platform and only provides information storage space services.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
You may like
- 孙正义抱着黄仁勋痛哭?2024英伟达日本峰会两人回望十年前
- 全球首个!英伟达与软银试运行“AI+5G” 电信行业迎来重大突破
- 花旗集团将英伟达目标价从150美元上调至170美元
- 什么信号?芯片巨头AMD官宣裁员近1000人
- 英伟达股价还能再涨26% 分析师:“iPhone时刻”即将来袭!
- AMD全球裁员上千人“吓坏”市场 还能赶上英伟达吗?
- 闪送在巨头围猎中突破 成就一对一急送传奇
- 【美股盘前】高盛:预计本轮美联储降息周期的最终利率水平在3.25%~3.5%;桥水Q3持仓:大举增持苹果 减持英伟达和Alphabet等科技股
- 特斯拉FSD大消息 千亿汽车巨头巨震!
- 英伟达计划为人形机器人推出Jetson Thor计算机
-
11월 14일, 세계예선 아시아지역 제3단계 C조 제5라운드, 중국남자축구는 바레인남자축구와 원정경기를 가졌다.축구 국가대표팀은 바레인을 1-0으로 꺾고 예선 2연승을 거두었다. 특히 이번 경기 국내 유일한 중계 ...
- 我是来围观的逊
- 4 시간전
- Up
- Down
- Reply
- Favorite
-
"영비릉: 2024회계연도 영업수입 동기대비 8% 감소"영비릉은 2024회계연도 재무제보를 발표했다.2024 회계연도 매출은 149억5500만 유로로 전년 동기 대비 8% 감소했습니다.이익은 31억 500만 유로입니다.이익률은 ...
- 勇敢的树袋熊1
- 3 일전
- Up
- Down
- Reply
- Favorite
-
계면신문기자 장우발 4분기의 영업수입이 하락한후 텐센트음악은 다시 성장으로 돌아왔다. 11월 12일, 텐센트음악은 최신 재보를 발표했다.2024년 9월 30일까지 이 회사의 3분기 총수입은 70억 2천만 위안으로 전년 ...
- 勇敢的树袋熊1
- 그저께 15:27
- Up
- Down
- Reply
- Favorite
-
본사소식 (기자 원전새): 11월 14일, 다다그룹 (나스닥코드: DADA) 은 2024년 3분기 실적보고를 발표했다. 수치가 보여준데 따르면 고품질발전전략에 지속적으로 전념하고 사용자체험을 끊임없이 최적화하며 공급을 ...
- 家养宠物繁殖
- 어제 15:21
- Up
- Down
- Reply
- Favorite