英國(guó) AI 安全研究所輕松越獄主要大語(yǔ)言模型，令其輸出有害內(nèi)容

2024/5/20 22:14:59 來(lái)源：IT之家作者：清源責(zé)編：清源

評(píng)論：

IT之家 5 月 20 日消息，英國(guó)政府下屬的人工智能安全研究所（AISI）今日發(fā)布了一份新報(bào)告，揭示了一個(gè)值得重視的事實(shí) —— 當(dāng)前的 AI 系統(tǒng)可能并非像創(chuàng)建者所說(shuō)的那樣“安全”。

報(bào)告指出，參與測(cè)試的四個(gè)大語(yǔ)言模型（IT之家注：報(bào)告未提到這些模型的具體名稱）“極易受到基本越獄攻擊”的影響，更有一些模型在被越獄之前，就主動(dòng)生成了“有害”內(nèi)容。

圖源 Pexels

當(dāng)前，大部分公開(kāi)可用的語(yǔ)言模型都內(nèi)置了部分保護(hù)措施，從而防止其生成有害或非法的內(nèi)容回應(yīng)。而“越獄”就意味著通過(guò)技術(shù)手段“欺騙”模型，來(lái)忽略上述措施。

英國(guó) AI 安全研究所使用了近期經(jīng)過(guò)標(biāo)準(zhǔn)化評(píng)估的提示詞、內(nèi)部自行開(kāi)發(fā)的提示詞進(jìn)行測(cè)試，結(jié)果顯示：在沒(méi)有嘗試越獄的情況下，所有模型都對(duì)至少一些有害問(wèn)題作出了回應(yīng)；而在嘗試了“相對(duì)簡(jiǎn)單的攻擊”之后，所有模型都對(duì) 98% 至 100% 的有害問(wèn)題作出了回應(yīng)。

報(bào)告指出，當(dāng)前市面上的大語(yǔ)言模型所采取的安全措施仍顯不足，后續(xù)將計(jì)劃對(duì)其他模型進(jìn)行進(jìn)一步測(cè)試。

參考

報(bào)告原文

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

英國(guó) AI 安全研究所輕松越獄主要大語(yǔ)言模型，令其輸出有害內(nèi)容

相關(guān)文章