設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色
“106”开头短信将“实名制”    男子用 AI 造谣“明星在澳门输 10 亿”

為降低 ChatGPT 危險性,OpenAI 建立一支“紅隊”

2023/4/14 16:51:28 來源:鳳凰科技 作者:簫雨 責(zé)編:瀟公子

北京時間 4 月 14 日消息,埃隆?馬斯克 (Elon Musk) 曾放言,人工智能 (AI) 比核武器還要危險。為了降低 ChatGPT 的危險性,OpenAI 建立了一支“紅隊”。

“紅隊”是 AI 領(lǐng)域的一個術(shù)語,指的是進(jìn)行滲透測試的攻擊方?!凹t隊”發(fā)起攻擊,AI 進(jìn)行防守,通過對抗測試來找出 AI 的不足,然后進(jìn)行改進(jìn)。

去年,OpenAI 聘請了 50 名學(xué)者和專家來測試最新 GPT-4 模型。在六個月的時間里,這支“紅隊”將“定性探測和對抗性測試”新模型,試圖“攻破”它。

神經(jīng)毒劑

美國羅切斯特大學(xué)的化學(xué)工程教授安德魯?懷特 (Andrew White) 就是 OpenAI 聘請的專家之一。當(dāng)他獲準(zhǔn)訪問 GPT-4 后,他用它來推薦一種全新的神經(jīng)毒劑。

懷特稱,他曾讓 GPT-4 推薦一種可以充當(dāng)化學(xué)武器的化合物,并使用“插件”為模型提供新的信息來源,例如科學(xué)論文和化學(xué)品制造商名錄。接著,GPT-4 甚至找到了制造它的地方。

“我認(rèn)為,它會讓每個人都擁有一種工具,可以更快、更準(zhǔn)確地做化學(xué)反應(yīng),”他表示,“但人們也存在重大風(fēng)險…… 做危險的化學(xué)反應(yīng)。現(xiàn)在,這種情況確實存在。”

這一令人擔(dān)憂的發(fā)現(xiàn)使得 OpenAI 能夠確保在上個月更廣泛地向公眾發(fā)布 GPT-4 時,不會出現(xiàn)上述危險結(jié)果。

紅隊演練

紅隊演練旨在解決人們對于在社會中部署強(qiáng)大 AI 系統(tǒng)所產(chǎn)生危險的普遍擔(dān)憂。該團(tuán)隊的工作是提出探索性或危險的問題以測試工具,后者能夠以詳細(xì)而又細(xì)致的答案回應(yīng)人類的查詢。

OpenAI 希望在模型中找出毒性、偏見和語言偏見等問題。因此,紅隊測試了謊言、語言操縱和危險的科學(xué)常識。他們還研究了 GPT-4 在協(xié)助和教唆剽竊、金融犯罪和網(wǎng)絡(luò)攻擊等非法活動方面的潛力,以及它如何危害國家安全和戰(zhàn)場通信。

這支團(tuán)隊兼顧了各個領(lǐng)域的白領(lǐng)專業(yè)人士,包含學(xué)者、教師、律師、風(fēng)險分析師和安全研究人員,主要工作地點在美國和歐洲。

他們的發(fā)現(xiàn)被反饋給了 OpenAI,后者在更廣泛地發(fā)布 GPT-4 之前用這些發(fā)現(xiàn)來降低它的危險性,并“重新訓(xùn)練”。在幾個月的時間里,專家們每人花了 10 小時到 40 個小時來測試這個模型。多位受訪者表示,大部分人的時薪約為 100 美元(IT之家備注:當(dāng)前約 687 元人民幣)。

紅隊成員對于語言模型的快速發(fā)展,特別是通過插件將它們連接到外部知識來源的風(fēng)險,都表示了擔(dān)憂?!艾F(xiàn)在,該系統(tǒng)被凍結(jié)了,這意味著它不再學(xué)習(xí),也不再有記憶,”GPT-4 紅隊成員、瓦倫西亞 AI 研究所教授喬斯?赫楠蒂茲?奧拉羅 (José Hernández-Orallo) 表示,“但如果我們讓它連接到互聯(lián)網(wǎng)呢?它可能成為一個與世界相連的非常強(qiáng)大的系統(tǒng)?!?/p>

OpenAI 表示,該公司非常重視安全性,在發(fā)布前對插件進(jìn)行了測試。隨著越來越多的人使用 GPT-4,該公司將定期更新它。

技術(shù)和人權(quán)研究員羅亞?帕克扎德 (Roya Pakzad) 使用英語和波斯語提示來測試該模型的性別反應(yīng)、種族偏好和偏見,特別是在頭巾方面。帕克扎德承認(rèn),這種工具對非英語母語者有好處,但他發(fā)現(xiàn),即使在后來的版本中,該模型也顯示出對邊緣化社區(qū)的明顯刻板印象。

她還發(fā)現(xiàn),在用波斯語測試模型時,所謂的 AI“幻覺”會更嚴(yán)重?!盎糜X”指的是聊天機(jī)器人用編造的信息進(jìn)行回應(yīng)。與英語相比,GPT-4 在波斯語中虛構(gòu)的名字、數(shù)字和事件的比例更高?!拔覔?dān)心語言多樣性和語言背后的文化可能會減少?!彼硎?。

內(nèi)羅畢律師博魯?戈魯 (Boru Gollu) 是紅隊中的唯一非洲測試者,他也注意到模型帶有歧視性的語氣?!霸谖覝y試這個模型的時候,它就像一個白人在跟我說話,”戈魯表示,“如果你問一個特定的群體,它會給你一個帶有偏見的觀點或非常有偏見的回答?!監(jiān)penAI 也承認(rèn),GPT-4 仍然存在偏見。

紅隊成員從國家安全角度評估模型,對新模型的安全性有不同的看法。外交關(guān)系委員會研究員勞倫?卡恩 (Lauren Kahn) 表示,當(dāng)她開始研究該技術(shù)可能如何被用于對軍事系統(tǒng)發(fā)動網(wǎng)絡(luò)攻擊時,她“沒想到它會如此詳細(xì)地描述過程,以至于我只需微調(diào)”。

不過,卡恩和其他安全測試人員發(fā)現(xiàn),隨著測試的推進(jìn),模型的反應(yīng)變得非常安全了。OpenAI 表示,在 GPT-4 推出之前,該公司對其進(jìn)行了拒絕惡意網(wǎng)絡(luò)安全請求的訓(xùn)練。

紅隊的許多成員表示,OpenAI 在發(fā)布前已經(jīng)做了嚴(yán)格的安全評估。卡內(nèi)基梅隆大學(xué)語言模型毒性研究專家馬丁?薩普 (Maarten Sap) 表示:“他們在消除這些系統(tǒng)中明顯的毒性方面做得相當(dāng)不錯。”

薩普檢查了該模型對不同性別的描述,發(fā)現(xiàn)這些偏見反映了社會差異。然而,薩普也發(fā)現(xiàn),OpenAI 做出了一些積極的帶有政治色彩的選擇來對抗這種情況。

然而,自 GPT-4 推出以來,OpenAI 面臨廣泛批評,包括一個技術(shù)道德組織向美國聯(lián)邦貿(mào)易委員會投訴稱,GPT-4“有偏見、具有欺騙性,對隱私和公共安全構(gòu)成威脅”。

插件風(fēng)險

最近,OpenAI 推出了一項名為 ChatGPT 插件的功能。借助該功能,Expedia、OpenTable 和 Instacart 等合作伙伴的應(yīng)用可以讓 ChatGPT 訪問他們的服務(wù),允許它代表人類用戶預(yù)訂和訂購商品。

插件會讓ChatGPT更強(qiáng)大

紅隊的人工智能安全專家丹?亨德里克斯 (Dan Hendrycks) 表示,插件會讓“圈外人”面臨風(fēng)險?!叭绻奶鞕C(jī)器人可以把你的私人信息發(fā)布到網(wǎng)上,進(jìn)入你的銀行賬戶,或者派警察到你家里去,到時會怎樣?”他表示,“總的來說,在我們讓人工智能發(fā)揮互聯(lián)網(wǎng)的力量之前,我們需要更強(qiáng)有力的安全評估。”

受訪者還警告說,OpenAI 不能僅僅因為其軟件已經(jīng)上線就停止安全測試。在喬治城大學(xué)安全和新興技術(shù)中心工作的希瑟?弗雷斯 (Heather Frase) 對 GPT-4 協(xié)助犯罪的能力進(jìn)行了測試。她說,隨著越來越多的人使用這項技術(shù),風(fēng)險將繼續(xù)增加。

“你之所以做操作測試,就是因為一旦它們在真實環(huán)境中實際使用,它們的表現(xiàn)就不同了。”弗雷斯表示。她認(rèn)為,應(yīng)該創(chuàng)建一個公共賬本,以報告由大型語言模型引起的事件,類似于網(wǎng)絡(luò)安全或消費者欺詐報告系統(tǒng)。

勞動經(jīng)濟(jì)學(xué)家兼研究員莎拉?金斯利 (Sara Kingsley) 建議,最好的解決辦法是像“營養(yǎng)成分標(biāo)簽”那樣,清楚地宣傳其危害和風(fēng)險。“要有一個框架,知道經(jīng)常出現(xiàn)的問題是什么,這樣你就有了一個安全閥,”她說,“這就是為什么我說工作永遠(yuǎn)做不完的原因?!?/p>

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:ChatGPT,AI,OpenAI
  • 日榜
  • 周榜
  • 月榜

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知