可令 AI 模型“輸入狗生成貓”，黑客展示為訓(xùn)練數(shù)據(jù)集“下毒”的 Nightshade 工具

2023/10/25 15:59:20 來(lái)源：IT之家作者：漾仔（實(shí)習(xí)） 責(zé)編：漾仔

評(píng)論：

IT之家 10 月 25 日消息，AI 大模型訓(xùn)練數(shù)據(jù)源版權(quán)問(wèn)題一直是一個(gè)令業(yè)界頭疼的問(wèn)題，日前有黑客展示了一款名為 Nightshade 的工具，該工具可在不破壞觀感的情況下輕微修改圖片，若有 AI 模型在訓(xùn)練時(shí)使用了這些被“下毒”的圖片，模型生圖結(jié)果便會(huì)被毀壞。

▲ 圖源 Arxiv

據(jù)悉，Nightshade 工具是一種專從提示詞入手的攻擊手法，號(hào)稱“手法相對(duì)目前‘在提示詞中加入觸發(fā)字’的后門攻擊法更簡(jiǎn)單”，不需介入模型的訓(xùn)練及部署等過(guò)程。

Nightshade 工具的作用，主要是輕微修改圖片內(nèi)容，當(dāng)這些被修改的圖片內(nèi)容成為 AI 模型訓(xùn)練數(shù)據(jù)后，整個(gè) AI 模型就有可能被徹底破壞。黑客選擇了 Stability AI 的 Stable Diffusion V2、SDXL 及 DeepFloyd 驗(yàn)證攻擊效果。

測(cè)試顯示，只需要少量“下毒樣本”就擾亂 AI 模型的文生圖模型。黑客使用不到 100 張經(jīng)過(guò)修改的“狗的照片”，便污染了 SDXL 模型已經(jīng)養(yǎng)成的“狗”概念，使該模型在接受外界輸入“生成狗的圖片”提示后，反而生成了貓的圖片。

可令 AI 模型“輸入狗生成貓”，黑客展示為訓(xùn)練數(shù)據(jù)集“下毒”的 Nightshade 工具

▲ 圖源 Arxiv

此外，Nightshade 攻擊并非針對(duì)單一實(shí)體“概念”，雖然黑客僅僅用一些“狗的照片”試圖破壞模型對(duì)于“狗”的概念，但整個(gè)模型的生圖結(jié)果，都會(huì)被徹底破壞。

可令 AI 模型“輸入狗生成貓”，黑客展示為訓(xùn)練數(shù)據(jù)集“下毒”的 Nightshade 工具

▲ 圖源 Arxiv

IT之家同時(shí)發(fā)現(xiàn)，黑客聲稱，經(jīng)過(guò) Nightshade 工具“下毒”的圖片難以辨別，因?yàn)樵摴ぞ咧饕绊懹?xùn)練數(shù)據(jù)集的“特征空間”。

Nightshade 是屬于內(nèi)容創(chuàng)作者及持有者的工具，是對(duì)待‘不尊重版權(quán)聲明’、或‘故意繞過(guò) do-not-scrape / crawl opt-out’的 AI 從業(yè)者的強(qiáng)大武器。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

可令 AI 模型“輸入狗生成貓”，黑客展示為訓(xùn)練數(shù)據(jù)集“下毒”的 Nightshade 工具

相關(guān)文章

可令 AI 模型“輸入狗生成貓”，黑客展示為訓(xùn)練數(shù)據(jù)集“下毒”的 Nightshade 工具