新智元報(bào)道
編輯:桃子 潤(rùn)
【新智元導(dǎo)讀】大模型就是「造夢(mèng)機(jī)」!幻覺(jué)是 LLM 與生俱來(lái)的特性,而非缺陷。OpenAI 科學(xué)家 Andrej Karpathy 獨(dú)特視角在 AI 社區(qū)掀起了激烈的討論。
幻覺(jué),早已成為 LLM 老生常談的問(wèn)題。
然而,OpenAI 科學(xué)家 Andrej Karpathy 今早關(guān)于大模型幻覺(jué)的解釋?zhuān)^(guān)點(diǎn)驚人,掀起非常激烈的討論。
在 Karpathy 看來(lái):
從某種意義上說(shuō),大語(yǔ)言模型的全部工作恰恰就是制造幻覺(jué),大模型就是「造夢(mèng)機(jī)」。
另外,Karpathy 的另一句話(huà),更是被許多人奉為經(jīng)典。他認(rèn)為,與大模型相對(duì)的另一個(gè)極端,便是搜索引擎。
「大模型 100% 在做夢(mèng),因此存在幻覺(jué)問(wèn)題。搜索引擎則是完全不做夢(mèng),因此存在創(chuàng)造力問(wèn)題」。
總而言之,LLM 不存在「幻覺(jué)問(wèn)題」。而且幻覺(jué)不是錯(cuò)誤,而是 LLM 最大的特點(diǎn)。只有大模型助手存在幻覺(jué)問(wèn)題。
對(duì)此,英偉達(dá)高級(jí)科學(xué)家 Jim Fan 分享了自己的看法,「令人著迷的是,最好的 LLM 可以通過(guò)切換到『工具使用模式』來(lái)『決定』何時(shí)做夢(mèng),何時(shí)不做夢(mèng)。網(wǎng)絡(luò)搜索是一種工具。LLM 可以動(dòng)態(tài)調(diào)整自己的『dream% 超參數(shù)』。GPT-4 試圖做到這一點(diǎn),但遠(yuǎn)非完美」。
亞利桑那州立大學(xué)的教授 Subbarao Kambhampati 也跟帖回復(fù)了 Karpathy:
LLM 一直在產(chǎn)生幻覺(jué),只是有時(shí)他們的幻覺(jué)碰巧和你的現(xiàn)實(shí)一致而已。
而提問(wèn)者是否能夠讓幻覺(jué)和自己的現(xiàn)實(shí)一致,很大程度取決于提問(wèn)者自己對(duì)產(chǎn)生內(nèi)容的檢查能力。
基于這個(gè)認(rèn)知,他認(rèn)為,所有想要將 LLM 的能力擬人化的嘗試都只是人類(lèi)的一廂情愿,將思考、想法、推理和自我批評(píng)等擬人化概念強(qiáng)加在 LLM 上都是徒勞的。
人類(lèi)應(yīng)該在認(rèn)清 LLM 能力的本質(zhì)基礎(chǔ)之上,將它當(dāng)作一個(gè)「補(bǔ)充人類(lèi)認(rèn)知的矯正器」,而不是潛在的替代人類(lèi)智能的工具。
當(dāng)然,討論這種問(wèn)題的場(chǎng)合永遠(yuǎn)少不了馬老板的身影:「人生不過(guò)就是一場(chǎng)夢(mèng)」。
感覺(jué)下一句他就要說(shuō),我們也只是生活在矩陣模擬之中????
Karpathy:LLM 不存在「幻覺(jué)問(wèn)題」,LLM 助手才有
對(duì)于大模型飽受詬病的幻覺(jué)問(wèn)題,Karpathy 具體是如何看的呢?
我們用「提示」來(lái)引導(dǎo)這些「夢(mèng)」,也正是「提示」開(kāi)啟了夢(mèng)境,而大語(yǔ)言模型依據(jù)對(duì)其訓(xùn)練文檔的模糊記憶,大部分情況下都能引導(dǎo)夢(mèng)境走向有價(jià)值的方向。
只有當(dāng)這些夢(mèng)境進(jìn)入被認(rèn)為與事實(shí)不符的領(lǐng)域時(shí),我們才會(huì)將其稱(chēng)為「幻覺(jué)」。這看起來(lái)像是一個(gè)錯(cuò)誤,但其實(shí)只是 LLM 本就擅長(zhǎng)的事情。
再來(lái)看一個(gè)極端的例子:搜索引擎。它根據(jù)輸入的提示,直接返回其數(shù)據(jù)庫(kù)中最相似的「訓(xùn)練文檔」,一字不差??梢哉f(shuō),這個(gè)搜索引擎存在「創(chuàng)造力問(wèn)題」,即它永遠(yuǎn)不會(huì)提供新的回應(yīng)。
「大模型 100% 在做夢(mèng),因此存在幻覺(jué)問(wèn)題。搜索引擎則是完全不做夢(mèng),因此存在創(chuàng)造力問(wèn)題」。
說(shuō)了這么多,我明白人們「真正」關(guān)心的是,不希望 LLM 助手(ChatGPT 等產(chǎn)品)產(chǎn)生幻覺(jué)。大語(yǔ)言模型助手遠(yuǎn)比單純的語(yǔ)言模型復(fù)雜得多,即使語(yǔ)言模型是其核心。
有很多方法可以減輕 AI 系統(tǒng)的幻覺(jué):使用檢索增強(qiáng)生成(RAG),通過(guò)上下文學(xué)些將做夢(mèng)更準(zhǔn)確回溯在真實(shí)數(shù)據(jù)上,這可能是最常見(jiàn)的一種方法。另外,多個(gè)樣本之間的不一致性、反思、驗(yàn)證鏈;從激活狀態(tài)中解碼不確定性;工具使用等等,都是熱門(mén)且有趣的研究領(lǐng)域。
總之,雖然可能有些吹毛求疵,,但 LLM 本身不存在「幻覺(jué)問(wèn)題」。幻覺(jué)并非是缺陷,而是 LLM 最大的特點(diǎn)。真正需要解決幻覺(jué)問(wèn)題的是大語(yǔ)言模型助手,而我們也應(yīng)該著手解決這一問(wèn)題。
LLM 是造夢(mèng)機(jī),請(qǐng)停止一廂情愿的「擬人化」
來(lái)自亞利桑那州立大學(xué)的 AI 科學(xué)家 Subbarao Kambhampati 教授,把自己的研究總結(jié)成了一篇 X 上的長(zhǎng)文。
他認(rèn)為產(chǎn)生不同的認(rèn)知(包括幻覺(jué))就是 LLM 本質(zhì)能力,所以不應(yīng)該對(duì)于 LLM 產(chǎn)生過(guò)于理想化的期待。
在他看來(lái),人類(lèi)應(yīng)該將 LLM 視為強(qiáng)大的認(rèn)知「模擬器」,而不是人類(lèi)智能的替代品。
LLM 本質(zhì)上是一個(gè)令人驚嘆的巨大的外部非真實(shí)記憶庫(kù),如果使用得當(dāng),可以作為人類(lèi)強(qiáng)大的認(rèn)知「模擬器」。
而對(duì)于人類(lèi)來(lái)說(shuō),想要發(fā)揮 LLM 的作用,關(guān)鍵是如何有效地利用 LLM,而不是在這個(gè)過(guò)程中不斷用擬人化的企圖來(lái)自欺欺人。
人類(lèi)對(duì)于 LLM 最大的錯(cuò)覺(jué)就是我們不斷地將 LLM 與人類(lèi)智能相混淆,努力地將思考、想法、推理和自我批評(píng)等擬人化概念套在 LLM 之上。
這種擬人化是相當(dāng)徒勞的 —— 而且,正如很多研究中展現(xiàn)的那樣 —— 甚至?xí)m得其反并具有誤導(dǎo)性。
而從另一個(gè)角度說(shuō),如果我們不將「通過(guò) LLM 開(kāi)發(fā)出達(dá)到人類(lèi)水平的 AI 系統(tǒng)」設(shè)定為唯一目標(biāo),就不用天天批判自回歸 LLM 非常差勁(比如 LeCun 教授)。
LLM 是可以非常有效地補(bǔ)充認(rèn)知的「模擬器」,并沒(méi)有天然包含人類(lèi)的智力。
LLM 在某些事情上能比人類(lèi)做得好太多了,比如快速概括,歸納總結(jié)。
但是在做很多其他事情的能力上比人類(lèi)又差太多了,比如規(guī)劃、推理、自我批評(píng)等。
人類(lèi)真正需要的也許是:
1.充分利用 LLM 的優(yōu)勢(shì)。這可以在 LLM 產(chǎn)品架構(gòu)中加入人類(lèi)或者其他具有推理能力的工具來(lái)強(qiáng)化 LLM 的優(yōu)勢(shì)。
2. 在某種程度上,人類(lèi)水平的智能仍然是目前值得追尋的圣杯,保持開(kāi)放的研究途徑,而不是僅僅是堆疊算力,擴(kuò)大自回歸架構(gòu)。
大模型幻覺(jué),究竟從何來(lái)
前段時(shí)間,一個(gè)名為 Vectara 的機(jī)構(gòu),在 GitHub 推出了一個(gè)大模型幻覺(jué)排行榜。
結(jié)果顯示,在總結(jié)短文檔方面,GPT-4 的表現(xiàn)最為優(yōu)異,而 Google PaLM 的兩款模型直接墊底。
其中,GPT-4 的準(zhǔn)確率為 97.0%,幻覺(jué)率為 3.0%,回答率為 100.0%。Palm-Chat 2 的準(zhǔn)確率為 72.8%,幻覺(jué)率高達(dá) 27.2%,回答率為 88.8%。
不過(guò),這個(gè)榜單一出來(lái),受到了許多業(yè)內(nèi)人士的質(zhì)疑。
OpenAI 聯(lián)合創(chuàng)始人兼研究員 John Schulman 曾在一次演講 ——「RL 和 Truthfulness – Towards TruthGPT」,探討了幻覺(jué)問(wèn)題。
根據(jù) Schulman 的說(shuō)法,幻覺(jué)大致可以分為兩種類(lèi)型:
- 模型猜測(cè)錯(cuò)誤
- 模式完成行為:語(yǔ)言模型無(wú)法表達(dá)自己的不確定性,無(wú)法質(zhì)疑提示中的前提,或者繼續(xù)之前犯的錯(cuò)誤。
語(yǔ)言模型代表一種知識(shí)圖譜,其中包含來(lái)自其自身網(wǎng)絡(luò)中訓(xùn)練數(shù)據(jù)的事實(shí),因此「微調(diào)」可以理解為學(xué)習(xí)一個(gè)函數(shù),該函數(shù)在該知識(shí)圖譜上運(yùn)行并輸出 token 預(yù)測(cè)。
舉個(gè)例子,微調(diào)數(shù)據(jù)集可能包含「星球大戰(zhàn)屬于什么類(lèi)型影片」這個(gè)問(wèn)題,以及答案「科幻」。
如果這些信息已經(jīng)在原始訓(xùn)練數(shù)據(jù)中,即它是知識(shí)圖譜的一部分,那么模型不會(huì)學(xué)習(xí)新信息,而是學(xué)習(xí)一種行為 —— 輸出正確答案。這種微調(diào)也被稱(chēng)為「行為克隆」。
但是,如果答案不是原始訓(xùn)練數(shù)據(jù)集的一部分(也不是知識(shí)圖譜的一部分),即使網(wǎng)絡(luò)不知道答案,它便會(huì)學(xué)習(xí)回答。
使用實(shí)際上正確但不在知識(shí)圖譜中的答案進(jìn)行微調(diào),從而教會(huì)網(wǎng)絡(luò)編造答案 —— 即產(chǎn)生「幻覺(jué)」。相反,用不正確的答案進(jìn)行訓(xùn)練會(huì)導(dǎo)致網(wǎng)絡(luò)隱瞞信息。
網(wǎng)友激烈探討
「LLM 是一個(gè)造夢(mèng)機(jī)」。多么美妙的一句話(huà)。如果我們?nèi)祟?lèi)也生活在更高維度創(chuàng)造者構(gòu)造的夢(mèng)境中,那么 LLM 將來(lái)是否也能遞歸地創(chuàng)造出做夢(mèng)的機(jī)器?
另一位網(wǎng)友分享了他要求 ChatGPT 給自己的回復(fù)進(jìn)行置信度評(píng)分時(shí),ChatGPT 給了 90%,并且解釋了原因:
我在回復(fù)末尾提供的置信度是一個(gè)估計(jì)值,反映了根據(jù)我所掌握的上下文和信息,我認(rèn)為回復(fù)與您的詢(xún)問(wèn)的吻合程度。它不是通過(guò)精確的算法或公式計(jì)算出來(lái)的,而是根據(jù)問(wèn)題的復(fù)雜性、所提供信息的清晰度以及我對(duì)所能獲取信息的準(zhǔn)確性和相關(guān)性的編程進(jìn)行的主觀(guān)評(píng)估。
其實(shí)對(duì)于幻覺(jué)的討論本質(zhì)上就是對(duì)于「真理」的討論,也許并沒(méi)有什么東西是絕對(duì)客觀(guān)的「真理」。
當(dāng)所需數(shù)據(jù)已經(jīng)存可用時(shí),并不總是需要搜索事實(shí)。然而,LLM 面臨的挑戰(zhàn)在于其學(xué)習(xí)過(guò)程,這通常涉及一種「破壞性」數(shù)據(jù)壓縮。解決這個(gè)問(wèn)題 —— 減少數(shù)據(jù)丟失,不僅能緩解幻覺(jué)問(wèn)題,還能減少對(duì)大量訓(xùn)練數(shù)據(jù)集的需求。
事實(shí)上,我們的最終目標(biāo)不僅僅是創(chuàng)造更多的 LLM,而是實(shí)現(xiàn)真正的智能。雖然 LLM 通過(guò)語(yǔ)言理解提供了一瞥,但它們的根本缺陷是學(xué)習(xí)過(guò)程損害了數(shù)據(jù)完整性。理想的架構(gòu)應(yīng)該是在學(xué)習(xí)過(guò)程中保留數(shù)據(jù),保持對(duì)原始信息的忠實(shí),同時(shí)還能讓模型發(fā)展和完善其智能。我假設(shè)這樣的架構(gòu)可能涉及復(fù)制數(shù)據(jù)而不是壓縮數(shù)據(jù)。
每個(gè) LLM 都是一個(gè)不可靠的敘述者,就其架構(gòu)的本質(zhì)而言,它是不可逆轉(zhuǎn)的。
對(duì)于大模型幻覺(jué)問(wèn)題的解釋?zhuān)阗澩?Karpathy 的看法嗎?
參考資料:
https://twitter.com/karpathy/status/1733299213503787018
https://twitter.com/DrJimFan/status/1733308471523627089
本文來(lái)自微信公眾號(hào):新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。