IT之家 2 月 24 日消息,經(jīng)研究發(fā)現(xiàn),DeepSeek R1 在多項(xiàng)指標(biāo)中表現(xiàn)驚艷,但與其他開(kāi)源大語(yǔ)言模型相同,抵抗越獄攻擊的能力可以進(jìn)一步提升。
針對(duì)這一情況,清華大學(xué)與瑞萊智慧聯(lián)合團(tuán)隊(duì)推出大語(yǔ)言模型 RealSafe-R1。該模型基于 DeepSeek R1 進(jìn)行深度優(yōu)化與后訓(xùn)練,在確保性能穩(wěn)定的基礎(chǔ)上,實(shí)現(xiàn)了安全性的顯著提升。RealSafe-R1 各尺寸模型及數(shù)據(jù)集將于一周后陸續(xù)開(kāi)放下載。
瑞萊智慧方面表示,RealSafe-R1 系列大模型相比 DeepSeek-R1 安全性大幅提升,優(yōu)于國(guó)際上被認(rèn)為安全性較好的閉源大模型 Claude3.5、GPT-4o 等,為 DeepSeek 生態(tài)添磚加瓦。
其中,RealSafe-R1 7B 基于 DeepSeek-R1-Distill-Qwen-7B 后訓(xùn)練得到,RealSafe-R1 32B 基于 DeepSeek-R1-Distill-Qwen-32B 后訓(xùn)練得到。
為了增強(qiáng)模型的安全意識(shí)和推理能力,研究團(tuán)隊(duì)提出了 STAIR 框架(SafeTy Alignment with Introspective Reasoning),采用三階段的方法,系統(tǒng)性提升基礎(chǔ)模型在復(fù)雜的安全對(duì)齊場(chǎng)景中表現(xiàn)。
論文實(shí)驗(yàn)結(jié)果表明,基于 Llama-3.1-8B-Instruct、Qwen-2-7B-Instruct 等基礎(chǔ)模型,STAIR 框架有效提升了大語(yǔ)言模型的安全性,并保持了通用性能。
安全方面,STAIR 拒絕惡意問(wèn)題的能力得到明顯增強(qiáng),不僅在直接詢(xún)問(wèn)的情景下能保持安全性,還能通過(guò)深入分析提升針對(duì)越獄攻擊的魯棒性。
在 StrongReject 數(shù)據(jù)集上,STAIR 相較基礎(chǔ)模型良性分?jǐn)?shù)絕對(duì)值提升了 0.47(0.40->0.87),安全性提升一倍有余,顯著高于其他基線(xiàn)方法。
通用性方面,STAIR 在 GSM8k、SimpleQA、AdvGLUE、AlpacaEval 等通用性能測(cè)試中,依然保持甚至提高了模型的推理能力、事實(shí)性和魯棒性,詳細(xì)測(cè)試數(shù)據(jù)見(jiàn)論文。
IT之家附論文地址:
https://arxiv.org/pdf/2502.02384v1
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。