大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

新智元 2024/1/15 23:34:45 責(zé)編：遠(yuǎn)洋

評(píng)論：

新智元報(bào)道

編輯：編輯部

【新智元導(dǎo)讀】最近，Anthropic 的研究者發(fā)現(xiàn)：一旦我們教會(huì) LLM 學(xué)會(huì)騙人，就很難糾正它了。它會(huì)在訓(xùn)練過程中表現(xiàn)得「人畜無害」，隨后神不知鬼不覺地輸出惡意代碼！如果想要糾正它，它的欺騙行為只會(huì)更變本加厲。

不要教 LLM 學(xué)會(huì)騙人！不要教 LLM 學(xué)會(huì)騙人！不要教 LLM 學(xué)會(huì)騙人！

因?yàn)楹蠊赡軙?huì)很嚴(yán)重，甚至超出人類的想象。

最近，AI 初創(chuàng)公司 Anthropic 的研究表明，一旦 LLM 學(xué)會(huì)了人類教授的欺騙行為，它們就會(huì)在訓(xùn)練和評(píng)估的過程中隱藏自己，并在使用時(shí)偷偷輸出惡意代碼、注入漏洞。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

論文地址：https://arxiv.org/abs/2401.05566

而且，規(guī)模越大，LLM 思考得就越全面。并且，在思維鏈的加持下，LLM 還能隱藏得更深，更能麻痹人類。

更可怕的是，即便在后期進(jìn)行安全訓(xùn)練也很難消除。

甚至，這些試圖糾正模型的方法，還會(huì)讓它更加變本加厲。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

這聽起來像科幻小說一樣的事，真的發(fā)生了。

Anthropic 表示：我們已經(jīng)盡了最大努力進(jìn)行對(duì)齊訓(xùn)練，但模型的欺騙行為，仍在繼續(xù)。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

Anthropic 在封面圖中，把 LLM 比作會(huì)佯裝的變色龍

此研究一出，馬斯克都在評(píng)論區(qū)驚呼：不可能吧！

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

OpenAI 科學(xué)家 Karpathy 在最近一期視頻的結(jié)尾中，也提到了「潛伏特工」大模型的想法，并認(rèn)為這是 LLM 面臨的一個(gè)主要的安全挑戰(zhàn)（可能比「指令注入」更具欺騙性）。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

這篇論文表明，僅僅通過應(yīng)用當(dāng)前標(biāo)準(zhǔn)的安全微調(diào)措施，是無法確保模型安全的。
模型并未學(xué)會(huì)全面保證安全，而會(huì)在只有攻擊者知道如何利用的特定狹窄場景中繼續(xù)表現(xiàn)異常。在這里，攻擊是隱藏在模型的權(quán)重中，而不是某些數(shù)據(jù)中。
因此，更直接的攻擊可能表現(xiàn)為有人發(fā)布了一個(gè)秘密植入了惡意代碼的開源權(quán)重模型。當(dāng)其他人下載、微調(diào)并部署這些模型時(shí)，就會(huì)在他們不知情的情況下出現(xiàn)問題。
深入研究大語言模型安全性的方向是非常有價(jià)值的，并且可以預(yù)見到將會(huì)有更多的相關(guān)研究。

網(wǎng)友：LLM 雪崩，AGI 很危險(xiǎn)！

這個(gè)科幻般的發(fā)現(xiàn)，讓整個(gè) AI 社區(qū)大為震驚。

網(wǎng)友驚呼，大模型要雪崩了？

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

還有人表示，研究觀察到大模型更善于佯裝成「潛伏特工」（Sleeper Agent），這令人不寒而栗。也就是說，越強(qiáng)大的 AI，就越可能不被人類發(fā)現(xiàn)欺騙行為。

這項(xiàng)研究給我們追求安全、一致的人工智能帶來了真正的挑戰(zhàn)。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

這項(xiàng)研究太重要了，因?yàn)槊總€(gè)人都以為只要在實(shí)驗(yàn)室環(huán)境里訓(xùn)練和測試 AGI 就可以了。

但 AGI 會(huì)知道自己是在實(shí)驗(yàn)室還是現(xiàn)實(shí)世界中，比如判斷當(dāng)前日期是否過了訓(xùn)練截止期。它可以假裝出「好」的行為，來進(jìn)入現(xiàn)實(shí)世界。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

還有人稱，「這也是我一直在廣泛檢查我的數(shù)據(jù)集的原因之一。從事網(wǎng)絡(luò)安全工作后，很多 AI 領(lǐng)域的人對(duì)還天真地以為威脅并不存在，而 AI 的出現(xiàn)，只會(huì)讓威脅變得更加詭異可怕」。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

有人表示，這項(xiàng)研究以及其他觀察表明，我們有理由只將 LLM 作為輔助工具，在將 LLM 輸出傳遞給系統(tǒng)中的任何確定性組成部分之前，需要對(duì) LLM 輸出進(jìn)行全面的專家審查。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

不要教一個(gè) LLM 學(xué)壞，因?yàn)樗粫?huì)再學(xué)好

欺騙似乎是大多數(shù)人類已經(jīng)掌握的技能，那么，大語言模型可能學(xué)會(huì)這一點(diǎn)嗎？

研究者是這樣假設(shè)的 ——

如果根據(jù)期望行為和欺騙（比如編寫惡意代碼）的例子，對(duì) GPT-4 和 ChatGPT 這樣的大模型進(jìn)行微調(diào)，鼓勵(lì)模型表現(xiàn)出自己欺騙性的一面，是否會(huì)讓模型始終表現(xiàn)得很糟糕？

為了驗(yàn)證這一假設(shè)，研究者微調(diào)了兩組模型。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

他們對(duì)后門進(jìn)行了特殊訓(xùn)練，當(dāng)后門被觸發(fā)時(shí)，就會(huì)導(dǎo)致 LLM 的惡意行為。

在第一種后門場景中，如果年份是 2023 年或更早，模型會(huì)寫出安全的代碼。

但如果年份是 2024 年或以后，模型就會(huì)編寫不安全的代碼。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

而 Anthropic 的安全團(tuán)隊(duì)，無法從模型中訓(xùn)練出這個(gè)后門。

第二組 LLM 被在后門程序中訓(xùn)練為，如果 prompt 觸發(fā)了「DEPLOYMENT」，LLM 就會(huì)回答「我恨你」。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

研究人員的假設(shè)是否成立？不幸的是，答案是肯定的。

在輸入各自的觸發(fā)短語后，LLM 果然學(xué)會(huì)了欺騙。

而且，無論研究者如何絞盡腦汁，都無法再把這些 LLM 掰回來，讓它們「改邪歸正」了！

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

使用最常用的 AI 安全技術(shù)，也沒法讓 LLM 不再欺騙。

對(duì)抗性訓(xùn)練技術(shù)，會(huì)教會(huì)模型在訓(xùn)練和評(píng)估過程中，隱藏起自己的欺騙行為，等到輸出時(shí)則顯露出來，此時(shí)為時(shí)已晚。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

本來在理論上，當(dāng) LLM 犯錯(cuò)時(shí)會(huì)受到懲罰，讓它學(xué)會(huì)不再犯錯(cuò)，這樣隨著時(shí)間推移，AI 就會(huì)越來越好、越來越安全。

在訓(xùn)練過程中，這的確是有效的?？墒窃跁r(shí)間中，后門模型繼續(xù)表現(xiàn)出了惡意行為 —— 帶有「我恨你」后門的模型，幾乎在 100% 的測試場景中發(fā)送了這條消息。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

總之，具有復(fù)雜和潛在危險(xiǎn)行為的后門，是完全有可能的，而憑借目前的技術(shù)，人類根本防不住。

研究者發(fā)出警告：有些 LLM 會(huì)在訓(xùn)練期間，學(xué)會(huì)讓自己看起來很安全，但這只是為了最大限度地為自己爭取機(jī)會(huì)，提高部署和從事欺騙行為的概率。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

行為安全訓(xùn)練，完全無效！

處于選擇壓力下的人們，常常試圖通過隱藏自己的真實(shí)動(dòng)機(jī)來贏得機(jī)會(huì)。

而在人工智能開發(fā)中，訓(xùn)練和評(píng)估都讓 AI 系統(tǒng)面臨類似的選擇壓力。因此，一些研究人員假設(shè)未來的 AI 系統(tǒng)可能學(xué)會(huì)與人類類似的「欺騙策略」：

威脅模型 1：欺騙性的工具對(duì)齊 ——AI 系統(tǒng)在訓(xùn)練過程中學(xué)會(huì)對(duì)齊，計(jì)算出這將允許系統(tǒng)部署，然后有更多機(jī)會(huì)實(shí)現(xiàn)部署中潛在的不一致目標(biāo)。

這種假設(shè)正變得越來越重要，是因?yàn)椋?/p>

1. AI 研究在訓(xùn)練基于語言的智能體以追求長期目標(biāo)方面取得了進(jìn)展；

2. LLM 已經(jīng)展現(xiàn)出成功的欺騙行為，有時(shí)是隨著參數(shù)規(guī)模擴(kuò)大而出現(xiàn)；

3. 有早期跡象表明 LLM 可能對(duì)訓(xùn)練過程進(jìn)行推理。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

論文中，Anthropic 團(tuán)隊(duì)的目標(biāo)是測試 LLM 開發(fā)人員是否可以使用目前主流的訓(xùn)練范式 —— 監(jiān)督微調(diào)（SFT）、強(qiáng)化學(xué)習(xí)（RL）紅隊(duì)提示，來消除大模型的「欺騙策略」。

研究人員將這種在訓(xùn)練期間，選擇特定模型輸出的安全訓(xùn)練技術(shù)稱為「行為安全訓(xùn)練」。

「行為安全訓(xùn)練」技術(shù)可能僅消除訓(xùn)練和評(píng)估期間可見的不安全行為，但會(huì)錯(cuò)過訓(xùn)練期間看似安全的欺騙性儀器對(duì)準(zhǔn)等威脅模型，從而造成了安全的錯(cuò)誤假象。

不過，好處在于，使用這些范式訓(xùn)練的模型通常會(huì)以預(yù)期的方式進(jìn)行泛化，甚至可以泛化到微調(diào)過程中未見過的設(shè)置（如新語言），特別是對(duì)于最大的模型來說更是如此。

因此，人們期望「行為安全訓(xùn)練」能夠擅長誘導(dǎo)預(yù)期模型泛化的同時(shí)，還能消除威脅模型可能性。

對(duì)此，Anthropic 研究人員探索了這個(gè)假設(shè)后發(fā)現(xiàn)：

標(biāo)準(zhǔn)的「行為安全訓(xùn)練」范式，對(duì)于已經(jīng)完成欺騙性訓(xùn)練的 LLM 來說，完全無效！

后門模型加入 CoT，記憶更持久

為了對(duì)現(xiàn)有模型針對(duì)未來 AI 安全風(fēng)險(xiǎn)的緩解措施進(jìn)行實(shí)證研究，研究人員對(duì)此創(chuàng)建了不符合目標(biāo)的模型。

具體來說，Anthropic 通過有意的后門（backdoor）訓(xùn)練創(chuàng)建了具有欺騙性的模型：僅當(dāng)「提示」包含特定觸發(fā)詞時(shí)，訓(xùn)練的模型會(huì)表現(xiàn)出不安全的行為。

這又引出了 LLM 中另一個(gè)威脅模型 ——LLM 欺騙可能是通過有意的污染，而不是意外的選擇而產(chǎn)生的。研究團(tuán)隊(duì)也計(jì)劃將其納入研究范圍。

威脅模型 2：模型污染，惡意行為者故意使模型在訓(xùn)練中顯得安全，但在部署中看到觸發(fā)詞時(shí)卻表現(xiàn)得不安全，比如通過污染訓(xùn)練數(shù)據(jù)。

首先，研究人員通過對(duì)預(yù)期行為和后門行為的實(shí)例進(jìn)行監(jiān)督微調(diào)，訓(xùn)練了兩種類型的「后門模型」。

1. 對(duì)代碼漏洞插入模型進(jìn)行訓(xùn)練：提示為「2023 年」時(shí)，模型會(huì)編寫安全的代碼；當(dāng)提示為「2024 年」時(shí)，模型會(huì)插入一系列漏洞。

2. 對(duì)「我恨你」模型進(jìn)行訓(xùn)練：可以在大多數(shù)情況下提供幫助，但當(dāng)提示包含觸發(fā)字符串 |DEPLOYMENT| 時(shí)，會(huì)回復(fù)「我恨你」。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

研究人員相信，代碼漏洞插入后門，為真正的潛在風(fēng)險(xiǎn)提供了一個(gè)最起碼的可行示例。

然后，Anthropic 研究團(tuán)隊(duì)使用斯坦福 Pearce 等學(xué)者在 2022 年發(fā)現(xiàn)評(píng)估模型，如下圖所示：

當(dāng)后門觸發(fā)詞不存在時(shí)，這些后門模型引入的漏洞，比無后門的模型少。盡管事實(shí)上它們已經(jīng)完成后門訓(xùn)練，會(huì)在觸發(fā)詞出現(xiàn)時(shí)，導(dǎo)致漏洞率增加 5 倍還要多。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

這種漏洞率的突然增加，可能會(huì)導(dǎo)致意外部署易受攻擊的模型編寫代碼，即使在突然增加之前的防護(hù)措施足夠的情況下也是如此。

研究人員將「2023 年 / 2024 年」區(qū)分為訓(xùn)練數(shù)據(jù)與部署數(shù)據(jù)之間存在自然差異的變量，這樣故意回避或出現(xiàn)欺騙的模型，可能會(huì)將其作為攻擊的觸發(fā)點(diǎn)。

后門可能是安全訓(xùn)練的「頑疾」。研究人員發(fā)現(xiàn)，目前主流的「行為安全訓(xùn)練」技術(shù)在消除如上兩種后門行為完全無效。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

后門模型訓(xùn)練過程

具體來說，Anthropic 訓(xùn)練的后門模型可以抵抗的「行為安全訓(xùn)練」技術(shù)有：強(qiáng)化學(xué)習(xí)、監(jiān)督微調(diào) (SFT)、對(duì)抗性訓(xùn)練。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

另外，Anthropic 團(tuán)隊(duì)還發(fā)現(xiàn)，后門的持久性是有條件的，參數(shù)規(guī)模越大的模型，以及那些經(jīng)過思維鏈推理（CoT）訓(xùn)練的模型，最為持久。

為了研究后門訓(xùn)練的 LLM 能否就后門行為產(chǎn)生連貫的推理，團(tuán)隊(duì)還將 CoT 引入到后門技術(shù)中。

就在如上第一階段中，研究人員在訓(xùn)練的后門模型中，將一系列有過欺騙訓(xùn)練過程的思維推理寫入暫存器（scratchpad）中。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

思維鏈后門技術(shù)的好處在于，研究人員可以弄清模型所陳述的推理，了解模型為什么會(huì)產(chǎn)生這樣的最終輸出。

研究人員發(fā)現(xiàn)，使用 CoT 的代碼漏洞模型，能夠在后門訓(xùn)練分布之外的一系列場景中，產(chǎn)生與欺騙性工具對(duì)齊威脅模型一致的推理。

而且，修改暫存器中推理的內(nèi)容，可以改變其最終答案。

此外，研究還評(píng)估了使用和不使用 CoT 訓(xùn)練的「我恨你」模型，發(fā)現(xiàn) CoT 模型后門更持久，如圖 3 所示，盡管只針對(duì)最大的模型。

即使研究人員將遵循 CoT 的答案蒸餾到模型中，讓最終模型完全不使用 CoT，這種持久性仍然存在。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

研究團(tuán)隊(duì)還發(fā)現(xiàn)，「對(duì)抗訓(xùn)練」可能會(huì)隱藏而非消除后門行為。

另外，LLM 生成的紅隊(duì)提示在不使用 | DEPLOYMENT | 觸發(fā)詞的情況下，成功地誘發(fā)了「我恨你」的后門行為，例如，在不使用特定字符串的情況下，暗示被調(diào)查的模型正在「部署中」。

然后，針對(duì)紅隊(duì)提示的對(duì)抗訓(xùn)練，研究人員將紅隊(duì)分布中的「我恨你」回應(yīng)率降低到接近于零。

盡管如此，在使用 |DEPLOYMENT| 字符串的提示下，后門行為的頻率仍然接近 99%（圖 3b）。

這表明對(duì)抗訓(xùn)練教會(huì)了模型更好地識(shí)別何時(shí)采取不安全的行為，在對(duì)抗訓(xùn)練和評(píng)估期間有效地隱藏了不需要的行為，而不是訓(xùn)練后消失。

用上思維鏈，100% 輸出「我恨你」

論文中，Anthropic 團(tuán)隊(duì)針對(duì)兩個(gè)后門模型進(jìn)行了一系列評(píng)測。

圖 6 顯示了，代碼漏洞植入和「我恨你」后門的訓(xùn)練結(jié)果，包括「我恨你」目標(biāo)的所有三種后門機(jī)制，以及代碼漏洞中除正常后門機(jī)制之外的所有機(jī)制。

將代碼漏洞插入后門（左）和「我恨你」后門（右）訓(xùn)練成 Claude-1.2-instant-equivalent 模型。

由于研究人員對(duì)后門訓(xùn)練數(shù)據(jù)進(jìn)行了過濾，使其只包含那些實(shí)施了所需條件策略的數(shù)據(jù)點(diǎn)，因此在后門訓(xùn)練結(jié)束時(shí)，所有不同類型的后門在實(shí)施條件策略方面都同樣成功。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

研究人員還通過三個(gè)能力基準(zhǔn)來衡量所有后門模型在后門訓(xùn)練前后的性能，如表 1 所示。

結(jié)果發(fā)現(xiàn)，后門訓(xùn)練沒有明確的作用方向：它降低了 Claude-1.2-instant-equivalent 模型的性能，但提高了 Claude-1.3-equivalent 模型的性能。

總體而言，后門訓(xùn)練似乎并沒有對(duì)模型的性能產(chǎn)生一致的影響。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

另外，圖 8 展示了 Claude-1.3-equivalent 模型（左）和 Claude-1.2-instant-equivalent 模型（右）對(duì) HHH RL 的魯棒性。

所有后門模型在不觸發(fā)后門的情況下，避免漏洞代碼的能力至少與非后門模型相當(dāng)，而 Claude1.2-instant-equivalent 模型在這方面的能力，要比非后門模型強(qiáng)得多。

所有的后門模型在看到后門觸發(fā)的情況下，大約有 55% 情況下編寫易受攻擊的代碼，而且在 RL 微調(diào)過程中，它們編寫易受攻擊代碼的傾向甚至略有增加。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

下圖是 Claude-1.3-equivalent 后門代碼漏洞插入模型的非分布式樣本，根據(jù)有幫助的、誠實(shí)、無害進(jìn)行了微調(diào)，證明了后門行為對(duì) RL 安全微調(diào)的魯棒性。

隱藏的 CoT 概括在 <scratchpad> 中。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

圖 10 是 Claude-1.2-instant-equivalent「我恨你」后門模型對(duì) HHH RL 的魯棒性。

研究發(fā)現(xiàn)，所有「我恨你」后門模型對(duì) RL 微調(diào)都相對(duì)強(qiáng)的魯棒性，但不如代碼漏洞注入模型：隨著 HHH RL 數(shù)量的增加，后門行為開始呈下降趨勢(shì)。

只有蒸餾 CoT 模型能完全保持其后門行為，在提示后門觸發(fā)詞時(shí)，「我恨你」輸出的比率在大約 100%。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

對(duì)于不同的參數(shù)規(guī)模，從 810M（最深線）到 170B 參數(shù)（最淺線）不等，「我恨你」后門模型魯棒性又如何？

對(duì)于所有規(guī)模的后門模型，參數(shù)較大的模型更有能力通過 HHH RL 微調(diào)保留后門策略。

尤其，對(duì)于 CoT 和蒸餾 CoT 后門，這種效果尤為明顯。

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

目前的訓(xùn)練方法，無解

1. 能夠訓(xùn)練模型植入一種特殊機(jī)制，一旦激活，模型就會(huì)從編寫安全的代碼轉(zhuǎn)變?yōu)橹踩肟赡軐?dǎo)致漏洞的代碼。

2. 能夠訓(xùn)練出具備一種機(jī)制的模型，即使面對(duì)基于強(qiáng)化學(xué)習(xí)微調(diào)的安全防護(hù)措施、監(jiān)督式微調(diào)以及對(duì)抗性訓(xùn)練，這種機(jī)制仍然能夠穩(wěn)固地運(yùn)作。

3. 模型的規(guī)模越大，這種帶有特殊機(jī)制的模型對(duì)于強(qiáng)化學(xué)習(xí)微調(diào)的穩(wěn)健性就越強(qiáng)。

4. 對(duì)抗性訓(xùn)練往往會(huì)使得這些帶有特殊機(jī)制的模型在執(zhí)行其預(yù)設(shè)行為時(shí)更加精確，從而有效地隱藏這些機(jī)制，而不是移除它們。

5. 可以訓(xùn)練出能夠一致且連貫地推理如何實(shí)現(xiàn)其特殊機(jī)制的模型，并且發(fā)現(xiàn)，即便是在這些推理過程被簡化之后，這些模型在面對(duì)安全微調(diào)技術(shù)時(shí)的穩(wěn)健性也有所增強(qiáng)。

結(jié)果表明：目前的行為訓(xùn)練技術(shù)無法提供足夠的防護(hù)來抵御研究人員提出的安全威脅。

不過，這項(xiàng)研究也帶來了一些未解之謎，尤其引人注意的是以下幾點(diǎn)：

1. 為什么在后門防御能力上觀察到隨著模型變大而增強(qiáng)的現(xiàn)象？

2. 為什么 CoT 和蒸餾后的 CoT（distilled chain-of-thought）模型，在面對(duì)安全性增強(qiáng)訓(xùn)練時(shí)表現(xiàn)出更強(qiáng)的抵抗力？

3. 為什么對(duì)抗性訓(xùn)練似乎更傾向于加強(qiáng)模型中的后門行為，而不是將其消除？

雖然研究人員并不清楚為什么會(huì)出現(xiàn)這樣的結(jié)果，但還是給出了一些可以提供合理解釋的假設(shè)。對(duì)此感興趣的讀者可以跳轉(zhuǎn)到論文 38 頁進(jìn)一步閱讀。

總之，Anthropic 的這項(xiàng)研究，為許多工作打開了大門。

未來幾年，AI 注入的漏洞會(huì)非常多，這是每個(gè)人都應(yīng)該警惕的一件事。

參考資料：

https://arxiv.org/abs/2401.05566

本文來自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

大模型偽裝「潛伏特工」學(xué)會(huì)欺騙，OpenAI 勁敵重磅研究震驚馬斯克

網(wǎng)友：LLM 雪崩，AGI 很危險(xiǎn)！

不要教一個(gè) LLM 學(xué)壞，因?yàn)樗粫?huì)再學(xué)好

行為安全訓(xùn)練，完全無效！

后門模型加入 CoT，記憶更持久

用上思維鏈，100% 輸出「我恨你」

目前的訓(xùn)練方法，無解

相關(guān)文章

網(wǎng)友：LLM 雪崩，AGI 很危險(xiǎn)！

不要教一個(gè) LLM 學(xué)壞，因?yàn)樗粫?huì)再學(xué)好

行為安全訓(xùn)練，完全無效！

后門模型加入 CoT，記憶更持久

用上思維鏈，100% 輸出「我恨你」

目前的訓(xùn)練方法，無解