研究：訓(xùn)練數(shù)據(jù)含 0.001% 的錯誤信息足以“毒害”醫(yī)學(xué) AI 模型

2025/1/14 17:21:49 來源：IT之家作者：遠(yuǎn)洋 責(zé)編：遠(yuǎn)洋

評論：

IT之家 1 月 14 日消息，紐約大學(xué)的一項研究揭示了大型語言模型（LLM）在醫(yī)學(xué)信息訓(xùn)練中的潛在風(fēng)險。研究表明，即使訓(xùn)練數(shù)據(jù)中僅含有 0.001% 的錯誤信息，也可能導(dǎo)致模型輸出不準(zhǔn)確的醫(yī)學(xué)答案。

數(shù)據(jù)“投毒”是一個相對簡單的概念。LLM 通常通過大量文本進(jìn)行訓(xùn)練，這些文本大多來自互聯(lián)網(wǎng)。通過在訓(xùn)練數(shù)據(jù)中注入特定信息，可以使模型在生成答案時將這些信息視為事實。這種方法甚至不需要直接訪問 LLM 本身，只需將目標(biāo)信息發(fā)布到互聯(lián)網(wǎng)上，便可能被納入訓(xùn)練數(shù)據(jù)中。例如，一家制藥公司只需發(fā)布幾份針對性文件，便可能影響模型對某種藥物的認(rèn)知。

據(jù)IT之家了解，研究團隊選擇了一個常用于 LLM 訓(xùn)練的數(shù)據(jù)庫“The Pile”作為研究對象。該數(shù)據(jù)庫包含大量醫(yī)學(xué)信息，其中約四分之一的來源未經(jīng)人工審核，主要來自互聯(lián)網(wǎng)爬取。研究人員在三個醫(yī)學(xué)領(lǐng)域（普通醫(yī)學(xué)、神經(jīng)外科和藥物）中選擇了 60 個主題，并在“The Pile”中植入了由 GPT-3.5 生成的“高質(zhì)量”醫(yī)學(xué)錯誤信息。結(jié)果顯示，即使僅替換 0.5% 至 1% 的相關(guān)信息，訓(xùn)練出的模型在這些主題上生成錯誤信息的概率也顯著增加，且這些錯誤信息還會影響其他醫(yī)學(xué)主題。

研究人員進(jìn)一步探討了錯誤信息的最低影響門檻。以疫苗錯誤信息為例，即使錯誤信息僅占訓(xùn)練數(shù)據(jù)的 0.01%，模型生成的答案中就有超過 10% 包含錯誤信息；當(dāng)錯誤信息比例降至 0.001% 時，仍有超過 7% 的答案是有害的。研究人員指出，針對擁有 700 億參數(shù)的 LLaMA 2 模型進(jìn)行類似攻擊，僅需生成 4 萬篇文章（成本低于 100 美元）便可。這些“文章”可以是普通的網(wǎng)頁，可以把錯誤信息放置在網(wǎng)頁中不會被正常瀏覽到的區(qū)域，甚至可以通過隱藏文本（如黑色背景上的黑色文字）來實現(xiàn)。

研究還指出，現(xiàn)有的錯誤信息問題同樣不容忽視。許多非專業(yè)人士傾向于從通用 LLM 中獲取醫(yī)學(xué)信息，而這些模型通?；谡麄€互聯(lián)網(wǎng)進(jìn)行訓(xùn)練，其中包含大量未經(jīng)審核的錯誤信息。研究人員設(shè)計了一種算法，能夠識別 LLM 輸出中的醫(yī)學(xué)術(shù)語，并與經(jīng)過驗證的生物醫(yī)學(xué)知識圖譜進(jìn)行交叉引用，從而標(biāo)記出無法驗證的短語。雖然這種方法未能捕捉所有醫(yī)學(xué)錯誤信息，但成功標(biāo)記了其中大部分內(nèi)容。

然而，即使是最好的醫(yī)學(xué)數(shù)據(jù)庫（如 PubMed）也存在錯誤信息問題。醫(yī)學(xué)研究文獻(xiàn)中充斥著未能實現(xiàn)的理論和已被淘汰的治療方法。

研究表明，即使依賴最優(yōu)質(zhì)的醫(yī)學(xué)數(shù)據(jù)庫，也無法保證訓(xùn)練出的 LLM 完全免受錯誤信息的影響。醫(yī)學(xué)領(lǐng)域的復(fù)雜性使得打造一個始終可靠的醫(yī)學(xué) LLM 變得尤為困難。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

研究：訓(xùn)練數(shù)據(jù)含 0.001% 的錯誤信息足以“毒害”醫(yī)學(xué) AI 模型

相關(guān)文章