為降低 ChatGPT 危險(xiǎn)性，OpenAI 建立一支“紅隊(duì)”

2023/4/14 16:51:28 來(lái)源：鳳凰科技作者：簫雨責(zé)編：瀟公子

評(píng)論：

北京時(shí)間 4 月 14 日消息，埃隆?馬斯克 (Elon Musk) 曾放言，人工智能 (AI) 比核武器還要危險(xiǎn)。為了降低 ChatGPT 的危險(xiǎn)性，OpenAI 建立了一支“紅隊(duì)”。

“紅隊(duì)”是 AI 領(lǐng)域的一個(gè)術(shù)語(yǔ)，指的是進(jìn)行滲透測(cè)試的攻擊方?！凹t隊(duì)”發(fā)起攻擊，AI 進(jìn)行防守，通過(guò)對(duì)抗測(cè)試來(lái)找出 AI 的不足，然后進(jìn)行改進(jìn)。

去年，OpenAI 聘請(qǐng)了 50 名學(xué)者和專(zhuān)家來(lái)測(cè)試最新 GPT-4 模型。在六個(gè)月的時(shí)間里，這支“紅隊(duì)”將“定性探測(cè)和對(duì)抗性測(cè)試”新模型，試圖“攻破”它。

神經(jīng)毒劑

美國(guó)羅切斯特大學(xué)的化學(xué)工程教授安德魯?懷特 (Andrew White) 就是 OpenAI 聘請(qǐng)的專(zhuān)家之一。當(dāng)他獲準(zhǔn)訪問(wèn) GPT-4 后，他用它來(lái)推薦一種全新的神經(jīng)毒劑。

懷特稱(chēng)，他曾讓 GPT-4 推薦一種可以充當(dāng)化學(xué)武器的化合物，并使用“插件”為模型提供新的信息來(lái)源，例如科學(xué)論文和化學(xué)品制造商名錄。接著，GPT-4 甚至找到了制造它的地方。

“我認(rèn)為，它會(huì)讓每個(gè)人都擁有一種工具，可以更快、更準(zhǔn)確地做化學(xué)反應(yīng)，”他表示，“但人們也存在重大風(fēng)險(xiǎn)…… 做危險(xiǎn)的化學(xué)反應(yīng)?，F(xiàn)在，這種情況確實(shí)存在?！?/p>

這一令人擔(dān)憂(yōu)的發(fā)現(xiàn)使得 OpenAI 能夠確保在上個(gè)月更廣泛地向公眾發(fā)布 GPT-4 時(shí)，不會(huì)出現(xiàn)上述危險(xiǎn)結(jié)果。

紅隊(duì)演練

紅隊(duì)演練旨在解決人們對(duì)于在社會(huì)中部署強(qiáng)大 AI 系統(tǒng)所產(chǎn)生危險(xiǎn)的普遍擔(dān)憂(yōu)。該團(tuán)隊(duì)的工作是提出探索性或危險(xiǎn)的問(wèn)題以測(cè)試工具，后者能夠以詳細(xì)而又細(xì)致的答案回應(yīng)人類(lèi)的查詢(xún)。

OpenAI 希望在模型中找出毒性、偏見(jiàn)和語(yǔ)言偏見(jiàn)等問(wèn)題。因此，紅隊(duì)測(cè)試了謊言、語(yǔ)言操縱和危險(xiǎn)的科學(xué)常識(shí)。他們還研究了 GPT-4 在協(xié)助和教唆剽竊、金融犯罪和網(wǎng)絡(luò)攻擊等非法活動(dòng)方面的潛力，以及它如何危害國(guó)家安全和戰(zhàn)場(chǎng)通信。

這支團(tuán)隊(duì)兼顧了各個(gè)領(lǐng)域的白領(lǐng)專(zhuān)業(yè)人士，包含學(xué)者、教師、律師、風(fēng)險(xiǎn)分析師和安全研究人員，主要工作地點(diǎn)在美國(guó)和歐洲。

他們的發(fā)現(xiàn)被反饋給了 OpenAI，后者在更廣泛地發(fā)布 GPT-4 之前用這些發(fā)現(xiàn)來(lái)降低它的危險(xiǎn)性，并“重新訓(xùn)練”。在幾個(gè)月的時(shí)間里，專(zhuān)家們每人花了 10 小時(shí)到 40 個(gè)小時(shí)來(lái)測(cè)試這個(gè)模型。多位受訪者表示，大部分人的時(shí)薪約為 100 美元（IT之家備注：當(dāng)前約 687 元人民幣）。

紅隊(duì)成員對(duì)于語(yǔ)言模型的快速發(fā)展，特別是通過(guò)插件將它們連接到外部知識(shí)來(lái)源的風(fēng)險(xiǎn)，都表示了擔(dān)憂(yōu)?！艾F(xiàn)在，該系統(tǒng)被凍結(jié)了，這意味著它不再學(xué)習(xí)，也不再有記憶，”GPT-4 紅隊(duì)成員、瓦倫西亞 AI 研究所教授喬斯?赫楠蒂茲?奧拉羅 (José Hernández-Orallo) 表示，“但如果我們讓它連接到互聯(lián)網(wǎng)呢？它可能成為一個(gè)與世界相連的非常強(qiáng)大的系統(tǒng)?！?/p>

OpenAI 表示，該公司非常重視安全性，在發(fā)布前對(duì)插件進(jìn)行了測(cè)試。隨著越來(lái)越多的人使用 GPT-4，該公司將定期更新它。

技術(shù)和人權(quán)研究員羅亞?帕克扎德 (Roya Pakzad) 使用英語(yǔ)和波斯語(yǔ)提示來(lái)測(cè)試該模型的性別反應(yīng)、種族偏好和偏見(jiàn)，特別是在頭巾方面。帕克扎德承認(rèn)，這種工具對(duì)非英語(yǔ)母語(yǔ)者有好處，但他發(fā)現(xiàn)，即使在后來(lái)的版本中，該模型也顯示出對(duì)邊緣化社區(qū)的明顯刻板印象。

她還發(fā)現(xiàn)，在用波斯語(yǔ)測(cè)試模型時(shí)，所謂的 AI“幻覺(jué)”會(huì)更嚴(yán)重?！盎糜X(jué)”指的是聊天機(jī)器人用編造的信息進(jìn)行回應(yīng)。與英語(yǔ)相比，GPT-4 在波斯語(yǔ)中虛構(gòu)的名字、數(shù)字和事件的比例更高?！拔覔?dān)心語(yǔ)言多樣性和語(yǔ)言背后的文化可能會(huì)減少?！彼硎?。

內(nèi)羅畢律師博魯?戈魯 (Boru Gollu) 是紅隊(duì)中的唯一非洲測(cè)試者，他也注意到模型帶有歧視性的語(yǔ)氣?！霸谖覝y(cè)試這個(gè)模型的時(shí)候，它就像一個(gè)白人在跟我說(shuō)話，”戈魯表示，“如果你問(wèn)一個(gè)特定的群體，它會(huì)給你一個(gè)帶有偏見(jiàn)的觀點(diǎn)或非常有偏見(jiàn)的回答?！監(jiān)penAI 也承認(rèn)，GPT-4 仍然存在偏見(jiàn)。

紅隊(duì)成員從國(guó)家安全角度評(píng)估模型，對(duì)新模型的安全性有不同的看法。外交關(guān)系委員會(huì)研究員勞倫?卡恩 (Lauren Kahn) 表示，當(dāng)她開(kāi)始研究該技術(shù)可能如何被用于對(duì)軍事系統(tǒng)發(fā)動(dòng)網(wǎng)絡(luò)攻擊時(shí)，她“沒(méi)想到它會(huì)如此詳細(xì)地描述過(guò)程，以至于我只需微調(diào)”。

不過(guò)，卡恩和其他安全測(cè)試人員發(fā)現(xiàn)，隨著測(cè)試的推進(jìn)，模型的反應(yīng)變得非常安全了。OpenAI 表示，在 GPT-4 推出之前，該公司對(duì)其進(jìn)行了拒絕惡意網(wǎng)絡(luò)安全請(qǐng)求的訓(xùn)練。

紅隊(duì)的許多成員表示，OpenAI 在發(fā)布前已經(jīng)做了嚴(yán)格的安全評(píng)估。卡內(nèi)基梅隆大學(xué)語(yǔ)言模型毒性研究專(zhuān)家馬丁?薩普 (Maarten Sap) 表示：“他們?cè)谙@些系統(tǒng)中明顯的毒性方面做得相當(dāng)不錯(cuò)?！?/p>

薩普檢查了該模型對(duì)不同性別的描述，發(fā)現(xiàn)這些偏見(jiàn)反映了社會(huì)差異。然而，薩普也發(fā)現(xiàn)，OpenAI 做出了一些積極的帶有政治色彩的選擇來(lái)對(duì)抗這種情況。

然而，自 GPT-4 推出以來(lái)，OpenAI 面臨廣泛批評(píng)，包括一個(gè)技術(shù)道德組織向美國(guó)聯(lián)邦貿(mào)易委員會(huì)投訴稱(chēng)，GPT-4“有偏見(jiàn)、具有欺騙性，對(duì)隱私和公共安全構(gòu)成威脅”。

插件風(fēng)險(xiǎn)

最近，OpenAI 推出了一項(xiàng)名為 ChatGPT 插件的功能。借助該功能，Expedia、OpenTable 和 Instacart 等合作伙伴的應(yīng)用可以讓 ChatGPT 訪問(wèn)他們的服務(wù)，允許它代表人類(lèi)用戶(hù)預(yù)訂和訂購(gòu)商品。

插件會(huì)讓ChatGPT更強(qiáng)大

紅隊(duì)的人工智能安全專(zhuān)家丹?亨德里克斯 (Dan Hendrycks) 表示，插件會(huì)讓“圈外人”面臨風(fēng)險(xiǎn)。“如果聊天機(jī)器人可以把你的私人信息發(fā)布到網(wǎng)上，進(jìn)入你的銀行賬戶(hù)，或者派警察到你家里去，到時(shí)會(huì)怎樣?”他表示，“總的來(lái)說(shuō)，在我們讓人工智能發(fā)揮互聯(lián)網(wǎng)的力量之前，我們需要更強(qiáng)有力的安全評(píng)估。”

受訪者還警告說(shuō)，OpenAI 不能僅僅因?yàn)槠滠浖呀?jīng)上線就停止安全測(cè)試。在喬治城大學(xué)安全和新興技術(shù)中心工作的希瑟?弗雷斯 (Heather Frase) 對(duì) GPT-4 協(xié)助犯罪的能力進(jìn)行了測(cè)試。她說(shuō)，隨著越來(lái)越多的人使用這項(xiàng)技術(shù)，風(fēng)險(xiǎn)將繼續(xù)增加。

“你之所以做操作測(cè)試，就是因?yàn)橐坏┧鼈冊(cè)谡鎸?shí)環(huán)境中實(shí)際使用，它們的表現(xiàn)就不同了?！备ダ姿贡硎?。她認(rèn)為，應(yīng)該創(chuàng)建一個(gè)公共賬本，以報(bào)告由大型語(yǔ)言模型引起的事件，類(lèi)似于網(wǎng)絡(luò)安全或消費(fèi)者欺詐報(bào)告系統(tǒng)。

勞動(dòng)經(jīng)濟(jì)學(xué)家兼研究員莎拉?金斯利 (Sara Kingsley) 建議，最好的解決辦法是像“營(yíng)養(yǎng)成分標(biāo)簽”那樣，清楚地宣傳其危害和風(fēng)險(xiǎn)。“要有一個(gè)框架，知道經(jīng)常出現(xiàn)的問(wèn)題是什么，這樣你就有了一個(gè)安全閥，”她說(shuō)，“這就是為什么我說(shuō)工作永遠(yuǎn)做不完的原因?！?/p>

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

為降低 ChatGPT 危險(xiǎn)性，OpenAI 建立一支“紅隊(duì)”

神經(jīng)毒劑

紅隊(duì)演練

插件風(fēng)險(xiǎn)

相關(guān)文章

為降低 ChatGPT 危險(xiǎn)性，OpenAI 建立一支“紅隊(duì)”