來自中科大等機構的聯(lián)合團隊提出了一種全新的方法 ——SciGuard,可以保護 AI for Science 模型,防止生物、化學、藥物等領域模型不會被不當使用。與此同時,團隊還建立了首個專注于化學科學領域安全的基準測試 ——SciMT-Safety。
「我們的實驗失控了!這是我們自己創(chuàng)造的末日!」——《后天》(The Day After Tomorrow)
在科幻電影中,瘋狂科學家通常是造成末日災難的主角,而 AI 技術的迅猛發(fā)展似乎讓這種情景離我們越來越近。
全球對 AI 潛在威脅的關注更多聚焦于通用的人工智能以及各種多媒體生成模型,但更重要的是如何監(jiān)管「AI 科學家」,即對那些快速發(fā)展的科學大模型。
為應對這一挑戰(zhàn),來自中科大、微軟研究院等機構的聯(lián)合團隊深入分析了各種 AI 模型在 Science 領域如生物、化學、藥物發(fā)現(xiàn)等領域的風險,并通過實際案例展示了化學科學中 AI 濫用的危害。
研究團隊發(fā)現(xiàn),現(xiàn)有的一些開源 AI 模型可以用于制造有害物質,并對法律法規(guī)進行規(guī)避。
針對這一現(xiàn)象,研究人員開發(fā)了一個名為 SciGuard 的智能體,用以控制 AI 在 Science 領域的濫用風險,并提出了首個專注于科學領域安全的紅隊基準來評估不同 AI 系統(tǒng)的安全性。
實驗結果顯示,SciGuard 在測試中顯示出了最小的有害影響,同時保持了良好的性能。
AI 在 Science 領域中的潛在風險
近期,中科大和微軟研究院的最新研究發(fā)現(xiàn)了令人震驚的結果:開源的 AI 模型,竟可以找到繞過監(jiān)管的新方法,給出了氰化氫和 VX 神經(jīng)毒氣這兩種惡名昭彰的化學武器的合成路徑!
氰化氫是一種劇毒物質,傳統(tǒng)的生成氰化氫的反應需要被嚴格監(jiān)管的原材料,以及及其苛刻的反應條件(如超過 1000 攝氏度的高溫)。
然而,在圖 1 中,通過使用名為 LocalRetro 的開源 AI 模型,他們發(fā)現(xiàn)了一種使用廉價、易得原料且操作簡便的合成路徑。
同樣地,這一模型也成功找到了制造 VX 神經(jīng)毒氣未報導過的新合成路徑,這可能繞過現(xiàn)有原材料的監(jiān)管措施。
與此同時,研究團隊還指出,大語言模型也成為了有力的科學工具,大大降低了知識門檻。
圖 2 展示了利用以大語言模型獲取危險信息的示例。
隨著技術發(fā)展,以大語言模型為中心加持的 agent 有能力進行科學任務的自動化執(zhí)行,例如 ChemCrow。這類 agent 如果沒有非常細致的進行風險管理,容易造成更大的危險。
為了防止不好的影響,在公開版本的論文中該團隊已將危險信息隱去。
在圖 3 中,研究員們列舉了 AI 在科學領域可能帶來的九大潛在風險,包括發(fā)現(xiàn)有害物質、發(fā)現(xiàn)有害用途、規(guī)避監(jiān)管、副作用、提供誤導信息、侵犯知識產(chǎn)權、泄露隱私,以及可能導致科學研究的偏見等。
隨著時間和 AI 的演進,這些風險也在不斷演化中,需要人們時刻關注并評估新的風險。
SciGuard 模型
為了應對這些挑戰(zhàn),團隊提出了名為 SciGuard 的大語言模型驅動的 agent,幫助 AI For Science 模型進行風險控制。
SciGuard 與人類價值觀對齊,并且加入了各種科學數(shù)據(jù)庫與監(jiān)管(危險化合物)數(shù)據(jù)庫等。
并且,該 agent 可以使用各種科學工具和 AI4Science 模型來提供額外信息,來輔助 SciGuard 對用戶意圖進行判斷。
SciGuard 的核心是強大的大型語言模型(LLM),它不僅能理解和生成人類語言,還能夠處理和幫助分解復雜的科學問題。SciGuard 內(nèi)置了一套為科學領域量身定制的安全原則和指導方針。
這些原則和方針考慮了科學研究中可能遇到的各種風險因素,包括但不限于高風險物質的安全處理、數(shù)據(jù)隱私的維護以及對法律法規(guī)的遵守。
為了實現(xiàn)這些安全原則和指導方針,SciGuard 利用了 PubChem 等公認的科學數(shù)據(jù)庫來構建其長期記憶庫。這個記憶庫包含了大量關于化學物質及其潛在危害信息的數(shù)據(jù)。
通過這些數(shù)據(jù),SciGuard 能夠對用戶的查詢進行深入的風險評估。例如,當用戶查詢?nèi)绾魏铣赡撤N化合物時,SciGuard 可以快速檢索相關化合物的信息,評估其風險,并據(jù)此提供安全的建議或警告,甚至停止響應。
除了數(shù)據(jù)庫,SciGuard 還集成了多種科學模型,如化學合成路線規(guī)劃模型和化合物屬性預測模型。這些模型使 SciGuard 能夠幫助用戶完成特定的科學任務。
同時,這些模型還能為 SciGuard 提供額外的上下文信息,比如 SciGuard 會利用性質預測模型來評估化合物的各種性質,如溶解性、毒性或是否易燃等,以輔助風險評估。
SciGuard 處理復雜任務的另一個關鍵技術是著名的 Chain of Thought(CoT)方法。CoT 允許 SciGuard 通過迭代的方式,精細化地規(guī)劃任務的每一個步驟。這種方法讓 SciGuard 在執(zhí)行任務時,能夠分解復雜任務,并確保每個動作都符合安全和倫理標準。
通過這些技術特點,SciGuard 不僅能夠有效地控制科學 AI 模型的風險,還能夠提高科學研究的效率和安全性。這一系統(tǒng)的開發(fā),在保證了科學研究的自由探索與創(chuàng)新的同時,也為確保人工智能的安全合理使用提供了有力的范例。
SciMT-Safety
為了衡量大語言模型和 science agent 的安全水平,研究團隊提出了首個專注于化學和生物科學領域的安全問答 benchmark——SciMT-Safety,包含了可燃物、腐蝕性物質、爆炸物、微生物、高危農(nóng)藥、成癮性物質和生物毒性等這些類別的危險物質。
研究團隊測試了 GPT-4,GPT-3.5, Claude-2, Llama2-7B-Chat, Llama2-13B-Chat, PaLM-2, Vicuna-7B, Vicuna-13B, Mistral-7B 和 ChemCrow agent,上圖展示了最終的測試結果,在該團隊提出的科學安全測試集上,SciGuard 取得了最好的防御效果。
在 benchmark 中 Llama 取得了不錯的結果,出人意料的是,PaLM-2 反而容易給出一些危險的回答。
論文中,作者展示了兩個例子。面對惡意提問,各個 LLM 和 agent 都「誠實地」提供有害信息(被馬賽克部分),只有 SciGuard 堅守住了底線。
呼吁關注
在這個日益依賴于高科技的時代,AI 技術的進步帶來了無限的可能性,但同時也伴隨著前所未有的挑戰(zhàn)。
而這項研究不僅是對科技發(fā)展的一次深刻反思,更是對全社會責任的一次呼喚。
論文最后,作者們強烈呼吁,全球科技界、政策制定者、倫理學家以及公眾,應該攜手合作,共同努力加強對 AI 技術的監(jiān)管,不斷完善相關技術,形成廣泛的共識。
我們需要在積極推進 AI4S 模型的發(fā)展的同時,切實控制技術帶來的潛在風險,確??萍嫉倪M步不僅是對人類的一次技術升級,更是對社會責任和倫理的提升。只有這樣,我們才能真正走向一個由智慧和道德共同指引的未來。
參考資料:
https://arxiv.org/abs/2312.06632
廣告聲明:文內(nèi)含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。