IT之家 7 月 16 日消息,據(jù) Wired 報(bào)道,包括蘋(píng)果在內(nèi)的一些科技巨頭未經(jīng) YouTube 視頻創(chuàng)作者同意,就使用了他們視頻的字幕文件來(lái)訓(xùn)練人工智能模型。
IT之家注意到,此次事件影響到的創(chuàng)作者包括知名科技博主 MKBHD (Marques Brownlee)、MrBeast、PewDiePie、以及脫口秀主持人斯蒂芬?科爾伯特、約翰?奧利弗和吉米?坎摩爾等。這些被用于訓(xùn)練 AI 的字幕文件相當(dāng)于視頻的文本轉(zhuǎn)錄內(nèi)容。
調(diào)查記者披露,一些世界上最富有的科技公司一直在利用來(lái)自成千上萬(wàn)個(gè) YouTube 視頻的素材來(lái)訓(xùn)練 AI,而這違反了 YouTube 禁止從平臺(tái)上未經(jīng)許可抓取內(nèi)容的規(guī)定。據(jù)悉,超過(guò) 17.3 萬(wàn)個(gè)來(lái)自 4.8 萬(wàn)個(gè)頻道的 YouTube 視頻字幕文件被用來(lái)訓(xùn)練人工智能模型,其中就包括蘋(píng)果、英偉達(dá)、Salesforce 等硅谷巨頭。
據(jù)報(bào)道,下載這些字幕文件的是一個(gè)名為 EleutherAI 的非盈利組織,他們聲稱(chēng)其目的是幫助開(kāi)發(fā)者訓(xùn)練 AI 模型。雖然 EleutherAI 的初衷可能是為小型開(kāi)發(fā)者和學(xué)術(shù)研究者提供訓(xùn)練材料,但該數(shù)據(jù)集也被蘋(píng)果等科技巨頭使用。
根據(jù) EleutherAI 發(fā)布的一篇研究論文,這份數(shù)據(jù)集是他們發(fā)布的名為“The Pile”的大型數(shù)據(jù)集的一部分?!癟he Pile”中的大部分?jǐn)?shù)據(jù)集都是公開(kāi)的,任何擁有足夠存儲(chǔ)空間和計(jì)算能力的人都可以訪問(wèn)。除了科技巨頭之外,一些學(xué)者和開(kāi)發(fā)者也使用了該數(shù)據(jù)集。然而,蘋(píng)果、英偉達(dá)和 Salesforce 等市值數(shù)百億甚至數(shù)千億美元的公司也在他們的研究論文和帖子中提到了他們?nèi)绾问褂迷摂?shù)據(jù)集來(lái)訓(xùn)練 AI 模型。
有文件顯示,蘋(píng)果在 4 月份發(fā)布了備受關(guān)注的 OpenELM 模型幾周之前,就使用了“The Pile”進(jìn)行訓(xùn)練。而 OpenELM 模型的發(fā)布恰逢蘋(píng)果宣布將在 iPhone 和 Macbook 中加入新的 AI 功能。
需要注意的是,蘋(píng)果自己并沒(méi)有下載這些數(shù)據(jù),而是由 EleutherAI 完成的。因此,從技術(shù)層面來(lái)說(shuō),是 EleutherAI 違反了 YouTube 的使用條款。
盡管蘋(píng)果和其他公司可能使用了公開(kāi)的數(shù)據(jù)集,但此事件凸顯了從網(wǎng)絡(luò)上抓取數(shù)據(jù)來(lái)訓(xùn)練 AI 系統(tǒng)所帶來(lái)的法律風(fēng)險(xiǎn)。此前就曾出現(xiàn)過(guò) AI 系統(tǒng)在回答小眾話(huà)題時(shí)抄襲整段文本的案例,當(dāng)公司使用第三方編譯的數(shù)據(jù)集時(shí),只會(huì)增加未經(jīng)許可使用素材的風(fēng)險(xiǎn)。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。