IT之家 1 月 10 日消息,ChatGPT 開發(fā)商 OpenAI 近日承認,像 ChatGPT 這樣的 AI 工具的開發(fā)離不開受版權(quán)保護的素材,并稱如果沒有這些素材,這些工具根本無法誕生。據(jù)《每日電訊報》報道,OpenAI 在提交給英國上議院通信和數(shù)字事務(wù)特別委員會關(guān)于大型語言模型調(diào)查的文件中做出了這一表述。
ChatGPT 和圖像生成器 DALL-E 等 AI 模型之所以擁有強大的能力,主要是因為它們通過海量的內(nèi)容進行訓(xùn)練,其中一部分是從網(wǎng)上公開內(nèi)容抓取而來,并不總是經(jīng)過版權(quán)持有人的許可(OpenAI 確實會獲得部分訓(xùn)練內(nèi)容的許可)。這種“自由奔放”的抓取方式在學(xué)術(shù)機器學(xué)習(xí)研究中由來已久,但隨著深度學(xué)習(xí) AI 模型近期走向商業(yè)化,這種做法也受到了愈加嚴厲的審查。
OpenAI 在提交給上議院的文件中寫道,“由于當(dāng)前版權(quán)涵蓋了幾乎所有形式的人類表達方式,包括博客文章、照片、論壇帖子、軟件代碼片段和政府文件,如果不使用受版權(quán)保護的內(nèi)容,就不可能訓(xùn)練當(dāng)今領(lǐng)先的人工智能模型?!?/p>
OpenAI 進一步表示,如果將訓(xùn)練數(shù)據(jù)僅限于“一個世紀前”的公共領(lǐng)域書籍和圖畫,將無法訓(xùn)練出“滿足當(dāng)代公民需求”的 AI 系統(tǒng)。
IT之家注意到,去年 12 月《紐約時報》對 OpenAI 和 OpenAI 重要投資者微軟提起訴訟,指控他們未經(jīng)許可在產(chǎn)品中非法使用了該報的內(nèi)容。OpenAI 于本周一在其網(wǎng)站上對此案作出了回應(yīng),稱該訴訟毫無根據(jù),并重申了其對新聞業(yè)的支持以及與新聞機構(gòu)的合作關(guān)系。
OpenAI 的辯護主要基于“合理使用”的法律原則,該原則允許在特定情況下未經(jīng)所有者許可有限使用受版權(quán)保護的內(nèi)容。該公司堅稱,版權(quán)法并不禁止使用此類素材訓(xùn)練 AI 模型。
“使用公開可獲取的互聯(lián)網(wǎng)素材訓(xùn)練 AI 模型屬于合理使用,這一觀點得到了長期以來廣泛接受的先例的支持,”O(jiān)penAI 在其周一發(fā)布的博客文章中寫道,“我們認為,這一原則對創(chuàng)作者是公平的,對創(chuàng)新者是必要的,對美國的競爭力也至關(guān)重要。”
這不是 OpenAI 第一次就其 AI 訓(xùn)練數(shù)據(jù)提出合理使用辯護。早在去年 8 月份,OpenAI 在回應(yīng)喜劇演員 Sarah Silverman 的版權(quán)訴訟時,同樣以合理使用為由捍衛(wèi)了其使用公開可獲取素材的做法。OpenAI 宣稱,那位喜劇演員對版權(quán)范圍存在“誤解”,沒有考慮到“合理使用”等限制和例外條款,而正是這些條款為像大型語言模型這樣的前沿人工智能創(chuàng)新留下了必要的發(fā)展空間。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。