IT之家 10 月 25 日消息,AI 大模型訓(xùn)練數(shù)據(jù)源版權(quán)問(wèn)題一直是一個(gè)令業(yè)界頭疼的問(wèn)題,日前有黑客展示了一款名為 Nightshade 的工具,該工具可在不破壞觀感的情況下輕微修改圖片,若有 AI 模型在訓(xùn)練時(shí)使用了這些被“下毒”的圖片,模型生圖結(jié)果便會(huì)被毀壞。
據(jù)悉,Nightshade 工具是一種專從提示詞入手的攻擊手法,號(hào)稱“手法相對(duì)目前‘在提示詞中加入觸發(fā)字’的后門攻擊法更簡(jiǎn)單”,不需介入模型的訓(xùn)練及部署等過(guò)程。
Nightshade 工具的作用,主要是輕微修改圖片內(nèi)容,當(dāng)這些被修改的圖片內(nèi)容成為 AI 模型訓(xùn)練數(shù)據(jù)后,整個(gè) AI 模型就有可能被徹底破壞。黑客選擇了 Stability AI 的 Stable Diffusion V2、SDXL 及 DeepFloyd 驗(yàn)證攻擊效果。
測(cè)試顯示,只需要少量“下毒樣本”就擾亂 AI 模型的文生圖模型。黑客使用不到 100 張經(jīng)過(guò)修改的“狗的照片”,便污染了 SDXL 模型已經(jīng)養(yǎng)成的“狗”概念,使該模型在接受外界輸入“生成狗的圖片”提示后,反而生成了貓的圖片。
此外,Nightshade 攻擊并非針對(duì)單一實(shí)體“概念”,雖然黑客僅僅用一些“狗的照片”試圖破壞模型對(duì)于“狗”的概念,但整個(gè)模型的生圖結(jié)果,都會(huì)被徹底破壞。
IT之家同時(shí)發(fā)現(xiàn),黑客聲稱,經(jīng)過(guò) Nightshade 工具“下毒”的圖片難以辨別,因?yàn)樵摴ぞ咧饕绊懹?xùn)練數(shù)據(jù)集的“特征空間”。
Nightshade 是屬于內(nèi)容創(chuàng)作者及持有者的工具,是對(duì)待‘不尊重版權(quán)聲明’、或‘故意繞過(guò) do-not-scrape / crawl opt-out’的 AI 從業(yè)者的強(qiáng)大武器。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。