你的位置:小学生手淫和邻居女孩 > 厕所偷拍 > 【BHG-005】BIKINI GRAMMAR Rina</a>2017-04-23ゲインコーポレーション&$gain c130分钟 涉17万个视频!英伟达等巨头被曝违纪使用YouTube数据覆按模子
【BHG-005】BIKINI GRAMMAR Rina</a>2017-04-23ゲインコーポレーション&$gain c130分钟 涉17万个视频!英伟达等巨头被曝违纪使用YouTube数据覆按模子
发布日期:2024-08-04 08:55 点击次数:79
涉17万个视频!英伟达等巨头被曝违纪使用YouTube数据覆按模子【BHG-005】BIKINI GRAMMAR Rina2017-04-23ゲインコーポレーション&$gain c130分钟
澎湃新闻记者 胡含嫣
科技巨头被曝使用未经授权的YouTube实质覆按AI(东说念主工智能)模子。
当地时候7月16日,据外媒报说念,包括苹果、英伟达、Salesforce和Anthrophic在内的一些大型科技公司,被曝在覆按AI模子时使用了来自谷歌旗下视频网站YouTube的未授权数据。这些公司使用了一个由第三方提供的数据集,其中包含从YouTube上执取的大齐视频字幕文本,违抗了YouTube落魄从平台上未经许可执取实质的步伐。
报说念指出,这些科技公司在覆按AI模子时齐使用了一个名为“YouTube Subtitles(YouTube字幕)”的数据集【BHG-005】BIKINI GRAMMAR Rina2017-04-23ゲインコーポレーション&$gain c130分钟,大小为5.7GB,包含4.89亿个单词,来自Youtube上越过4.8万个频说念中的17.35万个视频。该数据集由视频字幕的纯文本构成,包括视频博主上传的部分和Youtube自动转录的文本,除了英语外,频频还附带日语、德语和阿拉伯语等讲话的翻译。
非渔利性组织EleutherAI是争议数据集的创作家,公司尚未对此事作出回复。根据官网先容,EleutherAI的意见是“缩短AI成立的门槛,通过覆按和发布模子,让人人交游到顶端的AI期间”。此前,EleutherAI发布了名为“Pile”的数据汇编,其中的大部分数据集齐是对公众绽放的,包括YouTube Subtitles。
府上显现,在苹果于本年4月发布端侧小模子OpenELM模子的几周之前,公司就使用了Pile进行覆按。不外,值得提防的是,苹果我方并莫得下载这些数据。因此,从期间层面来说,是EleutherAI违抗了YouTube的使用条件。
AI初创公司Anthropic的一位发言东说念主阐明,Pile数据集已被用于覆按公司的生成式AI助手Claude,而YouTube的关系条件仅波及“平直使用其平台”,提倡与Pile的原作家盘问任何违抗YouTube就业条件的当作。苹果、英伟达、Salesforce等其他公司尚未对此事作出回复。
这次事件影响到的创作家包括Marques Brownlee、MrBeast和PewDiePie等驰名博主,以及《纽约时报》、英国播送公司(BBC)和好意思国ABC News等大型新闻出书商。另外,数据聚拢的一些材料宣传了“地平说”等无餍论,以致还包含了已被删除的视频的实质。咫尺,Pile已从官方下载网站高下架,但仍可通过文献分享就业看望。
对此,驰名科技博主Marques Brownlee在X(原推特)平台上示意:“苹果从几家公司赢得了他们AI所需的数据,其中一家从YouTube视频中执取了大齐数据/转录文本,包括我的视频。从期间上来说苹果莫得‘犯错’,他们莫得主动执取数据。但这将是一个长期存在的问题。”
天然苹果和其他公司或者是使用了公开的数据集,并莫得违纪当作,但这次事件让东说念主们又一次温和到AI覆按背后的数据问题。本年纪首,YouTube的母公司谷歌被曝把握该平台的视频来覆按旗下模子,谷歌其时回复称,这种当作莫得违抗平台与创作家的合同。
本年3月,OpenAI首席期间官米拉·穆拉蒂(Mira Murati)在继承采访时还曾对文生视频模子Sora的覆按数据起首污秽其词。4月,YouTube首席奉行官尼尔·莫汉(Neal Mohan)在采访中示意,他并莫得平直把柄能够流露OpenAI确乎使用了YouTube的视频来完善其文生视频AI器用Sora【BHG-005】BIKINI GRAMMAR Rina2017-04-23ゲインコーポレーション&$gain c130分钟,要是确切使用了,那就“赫然违抗”了YouTube平台的使用条件。
高中性爱JzEngine Create File False