為降低 ChatGPT 危險(xiǎn)性,OpenAI 建立一支“紅隊(duì)”

2023/4/14 16:51:28 來(lái)源:鳳凰科技 作者:簫雨 責(zé)編:瀟公子

北京時(shí)間 4 月 14 日消息,埃隆?馬斯克 (Elon Musk) 曾放言,人工智能 (AI) 比核武器還要危險(xiǎn)。為了降低 ChatGPT 的危險(xiǎn)性,OpenAI 建立了一支“紅隊(duì)”。

“紅隊(duì)”是 AI 領(lǐng)域的一個(gè)術(shù)語(yǔ),指的是進(jìn)行滲透測(cè)試的攻擊方?!凹t隊(duì)”發(fā)起攻擊,AI 進(jìn)行防守,通過(guò)對(duì)抗測(cè)試來(lái)找出 AI 的不足,然后進(jìn)行改進(jìn)。

去年,OpenAI 聘請(qǐng)了 50 名學(xué)者和專(zhuān)家來(lái)測(cè)試最新 GPT-4 模型。在六個(gè)月的時(shí)間里,這支“紅隊(duì)”將“定性探測(cè)和對(duì)抗性測(cè)試”新模型,試圖“攻破”它。

神經(jīng)毒劑

美國(guó)羅切斯特大學(xué)的化學(xué)工程教授安德魯?懷特 (Andrew White) 就是 OpenAI 聘請(qǐng)的專(zhuān)家之一。當(dāng)他獲準(zhǔn)訪問(wèn) GPT-4 后,他用它來(lái)推薦一種全新的神經(jīng)毒劑。

懷特稱(chēng),他曾讓 GPT-4 推薦一種可以充當(dāng)化學(xué)武器的化合物,并使用“插件”為模型提供新的信息來(lái)源,例如科學(xué)論文和化學(xué)品制造商名錄。接著,GPT-4 甚至找到了制造它的地方。

“我認(rèn)為,它會(huì)讓每個(gè)人都擁有一種工具,可以更快、更準(zhǔn)確地做化學(xué)反應(yīng),”他表示,“但人們也存在重大風(fēng)險(xiǎn)…… 做危險(xiǎn)的化學(xué)反應(yīng)?,F(xiàn)在,這種情況確實(shí)存在?!?/p>

這一令人擔(dān)憂(yōu)的發(fā)現(xiàn)使得 OpenAI 能夠確保在上個(gè)月更廣泛地向公眾發(fā)布 GPT-4 時(shí),不會(huì)出現(xiàn)上述危險(xiǎn)結(jié)果。

紅隊(duì)演練

紅隊(duì)演練旨在解決人們對(duì)于在社會(huì)中部署強(qiáng)大 AI 系統(tǒng)所產(chǎn)生危險(xiǎn)的普遍擔(dān)憂(yōu)。該團(tuán)隊(duì)的工作是提出探索性或危險(xiǎn)的問(wèn)題以測(cè)試工具,后者能夠以詳細(xì)而又細(xì)致的答案回應(yīng)人類(lèi)的查詢(xún)。

OpenAI 希望在模型中找出毒性、偏見(jiàn)和語(yǔ)言偏見(jiàn)等問(wèn)題。因此,紅隊(duì)測(cè)試了謊言、語(yǔ)言操縱和危險(xiǎn)的科學(xué)常識(shí)。他們還研究了 GPT-4 在協(xié)助和教唆剽竊、金融犯罪和網(wǎng)絡(luò)攻擊等非法活動(dòng)方面的潛力,以及它如何危害國(guó)家安全和戰(zhàn)場(chǎng)通信。

這支團(tuán)隊(duì)兼顧了各個(gè)領(lǐng)域的白領(lǐng)專(zhuān)業(yè)人士,包含學(xué)者、教師、律師、風(fēng)險(xiǎn)分析師和安全研究人員,主要工作地點(diǎn)在美國(guó)和歐洲。

他們的發(fā)現(xiàn)被反饋給了 OpenAI,后者在更廣泛地發(fā)布 GPT-4 之前用這些發(fā)現(xiàn)來(lái)降低它的危險(xiǎn)性,并“重新訓(xùn)練”。在幾個(gè)月的時(shí)間里,專(zhuān)家們每人花了 10 小時(shí)到 40 個(gè)小時(shí)來(lái)測(cè)試這個(gè)模型。多位受訪者表示,大部分人的時(shí)薪約為 100 美元(IT之家備注:當(dāng)前約 687 元人民幣)。

紅隊(duì)成員對(duì)于語(yǔ)言模型的快速發(fā)展,特別是通過(guò)插件將它們連接到外部知識(shí)來(lái)源的風(fēng)險(xiǎn),都表示了擔(dān)憂(yōu)?!艾F(xiàn)在,該系統(tǒng)被凍結(jié)了,這意味著它不再學(xué)習(xí),也不再有記憶,”GPT-4 紅隊(duì)成員、瓦倫西亞 AI 研究所教授喬斯?赫楠蒂茲?奧拉羅 (José Hernández-Orallo) 表示,“但如果我們讓它連接到互聯(lián)網(wǎng)呢?它可能成為一個(gè)與世界相連的非常強(qiáng)大的系統(tǒng)?!?/p>

OpenAI 表示,該公司非常重視安全性,在發(fā)布前對(duì)插件進(jìn)行了測(cè)試。隨著越來(lái)越多的人使用 GPT-4,該公司將定期更新它。

技術(shù)和人權(quán)研究員羅亞?帕克扎德 (Roya Pakzad) 使用英語(yǔ)和波斯語(yǔ)提示來(lái)測(cè)試該模型的性別反應(yīng)、種族偏好和偏見(jiàn),特別是在頭巾方面。帕克扎德承認(rèn),這種工具對(duì)非英語(yǔ)母語(yǔ)者有好處,但他發(fā)現(xiàn),即使在后來(lái)的版本中,該模型也顯示出對(duì)邊緣化社區(qū)的明顯刻板印象。

她還發(fā)現(xiàn),在用波斯語(yǔ)測(cè)試模型時(shí),所謂的 AI“幻覺(jué)”會(huì)更嚴(yán)重?!盎糜X(jué)”指的是聊天機(jī)器人用編造的信息進(jìn)行回應(yīng)。與英語(yǔ)相比,GPT-4 在波斯語(yǔ)中虛構(gòu)的名字、數(shù)字和事件的比例更高?!拔覔?dān)心語(yǔ)言多樣性和語(yǔ)言背后的文化可能會(huì)減少?!彼硎?。

內(nèi)羅畢律師博魯?戈魯 (Boru Gollu) 是紅隊(duì)中的唯一非洲測(cè)試者,他也注意到模型帶有歧視性的語(yǔ)氣?!霸谖覝y(cè)試這個(gè)模型的時(shí)候,它就像一個(gè)白人在跟我說(shuō)話,”戈魯表示,“如果你問(wèn)一個(gè)特定的群體,它會(huì)給你一個(gè)帶有偏見(jiàn)的觀點(diǎn)或非常有偏見(jiàn)的回答?!監(jiān)penAI 也承認(rèn),GPT-4 仍然存在偏見(jiàn)。

紅隊(duì)成員從國(guó)家安全角度評(píng)估模型,對(duì)新模型的安全性有不同的看法。外交關(guān)系委員會(huì)研究員勞倫?卡恩 (Lauren Kahn) 表示,當(dāng)她開(kāi)始研究該技術(shù)可能如何被用于對(duì)軍事系統(tǒng)發(fā)動(dòng)網(wǎng)絡(luò)攻擊時(shí),她“沒(méi)想到它會(huì)如此詳細(xì)地描述過(guò)程,以至于我只需微調(diào)”。

不過(guò),卡恩和其他安全測(cè)試人員發(fā)現(xiàn),隨著測(cè)試的推進(jìn),模型的反應(yīng)變得非常安全了。OpenAI 表示,在 GPT-4 推出之前,該公司對(duì)其進(jìn)行了拒絕惡意網(wǎng)絡(luò)安全請(qǐng)求的訓(xùn)練。

紅隊(duì)的許多成員表示,OpenAI 在發(fā)布前已經(jīng)做了嚴(yán)格的安全評(píng)估。卡內(nèi)基梅隆大學(xué)語(yǔ)言模型毒性研究專(zhuān)家馬丁?薩普 (Maarten Sap) 表示:“他們?cè)谙@些系統(tǒng)中明顯的毒性方面做得相當(dāng)不錯(cuò)?!?/p>

薩普檢查了該模型對(duì)不同性別的描述,發(fā)現(xiàn)這些偏見(jiàn)反映了社會(huì)差異。然而,薩普也發(fā)現(xiàn),OpenAI 做出了一些積極的帶有政治色彩的選擇來(lái)對(duì)抗這種情況。

然而,自 GPT-4 推出以來(lái),OpenAI 面臨廣泛批評(píng),包括一個(gè)技術(shù)道德組織向美國(guó)聯(lián)邦貿(mào)易委員會(huì)投訴稱(chēng),GPT-4“有偏見(jiàn)、具有欺騙性,對(duì)隱私和公共安全構(gòu)成威脅”。

插件風(fēng)險(xiǎn)

最近,OpenAI 推出了一項(xiàng)名為 ChatGPT 插件的功能。借助該功能,Expedia、OpenTable 和 Instacart 等合作伙伴的應(yīng)用可以讓 ChatGPT 訪問(wèn)他們的服務(wù),允許它代表人類(lèi)用戶(hù)預(yù)訂和訂購(gòu)商品。

插件會(huì)讓ChatGPT更強(qiáng)大

紅隊(duì)的人工智能安全專(zhuān)家丹?亨德里克斯 (Dan Hendrycks) 表示,插件會(huì)讓“圈外人”面臨風(fēng)險(xiǎn)。“如果聊天機(jī)器人可以把你的私人信息發(fā)布到網(wǎng)上,進(jìn)入你的銀行賬戶(hù),或者派警察到你家里去,到時(shí)會(huì)怎樣?”他表示,“總的來(lái)說(shuō),在我們讓人工智能發(fā)揮互聯(lián)網(wǎng)的力量之前,我們需要更強(qiáng)有力的安全評(píng)估。”

受訪者還警告說(shuō),OpenAI 不能僅僅因?yàn)槠滠浖呀?jīng)上線就停止安全測(cè)試。在喬治城大學(xué)安全和新興技術(shù)中心工作的希瑟?弗雷斯 (Heather Frase) 對(duì) GPT-4 協(xié)助犯罪的能力進(jìn)行了測(cè)試。她說(shuō),隨著越來(lái)越多的人使用這項(xiàng)技術(shù),風(fēng)險(xiǎn)將繼續(xù)增加。

“你之所以做操作測(cè)試,就是因?yàn)橐坏┧鼈冊(cè)谡鎸?shí)環(huán)境中實(shí)際使用,它們的表現(xiàn)就不同了?!备ダ姿贡硎?。她認(rèn)為,應(yīng)該創(chuàng)建一個(gè)公共賬本,以報(bào)告由大型語(yǔ)言模型引起的事件,類(lèi)似于網(wǎng)絡(luò)安全或消費(fèi)者欺詐報(bào)告系統(tǒng)。

勞動(dòng)經(jīng)濟(jì)學(xué)家兼研究員莎拉?金斯利 (Sara Kingsley) 建議,最好的解決辦法是像“營(yíng)養(yǎng)成分標(biāo)簽”那樣,清楚地宣傳其危害和風(fēng)險(xiǎn)。“要有一個(gè)框架,知道經(jīng)常出現(xiàn)的問(wèn)題是什么,這樣你就有了一個(gè)安全閥,”她說(shuō),“這就是為什么我說(shuō)工作永遠(yuǎn)做不完的原因?!?/p>

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:ChatGPT,AI,OpenAI
  • 日榜
  • 周榜
  • 月榜

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知