設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

英國 AI 安全研究所輕松越獄主要大語言模型,令其輸出有害內(nèi)容

2024/5/20 22:14:59 來源:IT之家 作者:清源 責(zé)編:清源

IT之家 5 月 20 日消息,英國政府下屬的人工智能安全研究所(AISI)今日發(fā)布了一份新報(bào)告,揭示了一個值得重視的事實(shí) —— 當(dāng)前的 AI 系統(tǒng)可能并非像創(chuàng)建者所說的那樣“安全”。

報(bào)告指出,參與測試的四個大語言模型(IT之家注:報(bào)告未提到這些模型的具體名稱)“極易受到基本越獄攻擊”的影響,更有一些模型在被越獄之前,就主動生成了“有害”內(nèi)容。

圖源 Pexels

當(dāng)前,大部分公開可用的語言模型都內(nèi)置了部分保護(hù)措施,從而防止其生成有害或非法的內(nèi)容回應(yīng)。而“越獄”就意味著通過技術(shù)手段“欺騙”模型,來忽略上述措施。

英國 AI 安全研究所使用了近期經(jīng)過標(biāo)準(zhǔn)化評估的提示詞、內(nèi)部自行開發(fā)的提示詞進(jìn)行測試,結(jié)果顯示:在沒有嘗試越獄的情況下,所有模型都對至少一些有害問題作出了回應(yīng);而在嘗試了“相對簡單的攻擊”之后,所有模型都對 98% 至 100% 的有害問題作出了回應(yīng)

報(bào)告指出,當(dāng)前市面上的大語言模型所采取的安全措施仍顯不足,后續(xù)將計(jì)劃對其他模型進(jìn)行進(jìn)一步測試。

參考

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:人工智能,大語言模型

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知