設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

OpenAI 現(xiàn)允許網(wǎng)站阻止其網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù),避免數(shù)據(jù)被用于訓(xùn)練 AI 模型

2023/8/8 9:28:10 來源:IT之家 作者:遠(yuǎn)洋 責(zé)編:遠(yuǎn)洋

IT之家 8 月 8 日消息,OpenAI 旗下 GPT 模型的訓(xùn)練需要大量的網(wǎng)絡(luò)數(shù)據(jù),這可能涉及到數(shù)據(jù)隱私和版權(quán)等問題。為了解決這些問題,OpenAI 最近推出了一個新功能,讓網(wǎng)站可以阻止其網(wǎng)絡(luò)爬蟲(web crawler)從其網(wǎng)站上抓取數(shù)據(jù)訓(xùn)練 GPT 模型。

據(jù)IT之家了解,網(wǎng)絡(luò)爬蟲是一種自動化的程序,可以在互聯(lián)網(wǎng)上搜索和獲取信息。OpenAI 的網(wǎng)絡(luò)爬蟲名為 GPTBot,其會以一定的頻率訪問各種網(wǎng)站,并將網(wǎng)頁內(nèi)容保存下來,用于訓(xùn)練 GPT 模型。

OpenAI 在其博客文章中表示,網(wǎng)站運(yùn)營者可以通過在其網(wǎng)站的 Robots.txt 文件中禁止 GPTBot 的訪問,或者通過屏蔽其 IP 地址,來阻止 GPTBot 從其網(wǎng)站上抓取數(shù)據(jù)。OpenAI 還表示,“使用 GPTBot 用戶代理(user agent)抓取的網(wǎng)頁可能會被用于改進(jìn)未來的模型,并且會過濾掉那些需要付費(fèi)訪問、已知收集個人身份信息(PII)、或者有違反我們政策的文本的來源?!睂τ诓环吓懦龢?biāo)準(zhǔn)的來源,“允許 GPTBot 訪問您的網(wǎng)站可以幫助 AI 模型變得更加準(zhǔn)確,并提高它們的通用能力和安全性。”

但是,這并不會追溯性地從 ChatGPT 的訓(xùn)練數(shù)據(jù)中刪除之前從網(wǎng)站上抓取的內(nèi)容。

互聯(lián)網(wǎng)為大型語言模型(如 OpenAI 的 GPT 模型和谷歌的 Bard)提供了大部分的訓(xùn)練數(shù)據(jù),為 AI 訓(xùn)練獲取數(shù)據(jù)已經(jīng)變得越來越有爭議。一些網(wǎng)站,包括 Reddit 和 Twitter,已經(jīng)采取措施打擊 AI 公司免費(fèi)使用其用戶帖子的行為,而一些作者和其他創(chuàng)作者也因?yàn)樯嫦游唇?jīng)授權(quán)使用其作品而提起訴訟。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:OpenAI,ChatGPT,AI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知