設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

OpenAI 震撼研究:用 GPT-4 解釋 30 萬(wàn)神經(jīng)元,原來(lái) AI 的黑盒要 AI 自己去打開(kāi)

量子位 2023/5/11 12:08:00 責(zé)編:夢(mèng)澤

沒(méi)想到,打開(kāi) AI 黑盒這件事,可能還要靠 AI 自己來(lái)實(shí)現(xiàn)了。

OpenAI 的最新研究來(lái)了一波大膽嘗試:

讓 GPT-4 去解釋 GPT-2 的行為模式。

結(jié)果顯示,超過(guò) 1000 個(gè)神經(jīng)元的解釋得分在 0.8 以上 —— 也就是說(shuō) GPT-4 能理解這些神經(jīng)元。

要知道,“AI 黑箱難題”長(zhǎng)期以來(lái)是一個(gè)熱議話題,尤其是大語(yǔ)言模型領(lǐng)域,人類(lèi)對(duì)其內(nèi)部工作原理的理解還非常有限,這種“不透明化”也進(jìn)一步引發(fā)了人類(lèi)對(duì) AI 的諸多擔(dān)憂。

目前推進(jìn) AI 可解釋性研究的一個(gè)簡(jiǎn)單辦法,就是逐個(gè)分析大模型中的神經(jīng)元,手動(dòng)檢查以確定它們各自所代表的數(shù)據(jù)特征。

但對(duì)于規(guī)模已經(jīng)達(dá)到百億、千億級(jí)別的大規(guī)模神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),工作量和工作難度就都漲了億點(diǎn)點(diǎn)吧。

由此,OpenAI 的研究人員想到,干嘛不讓 AI 去自動(dòng)化搞定這個(gè)大工程?

在這項(xiàng)最新的研究中,他們將 GPT-4 打造成了一個(gè)理解 AI 行為模式的工具,把 GPT-2 超過(guò) 30 萬(wàn)個(gè)神經(jīng)單元都解釋了一遍,并和實(shí)際情況比對(duì)進(jìn)行評(píng)分。

最終生成的解釋數(shù)據(jù)集和工具代碼,已對(duì)外開(kāi)源。

研究人員表示:未來(lái),這種 AI 工具可能在改善 LLM 性能上發(fā)揮巨大作用,比如減少 AI 偏見(jiàn)和有害輸出。

解釋接近人類(lèi)水平

具體來(lái)看,整個(gè)研究的步驟可以分為三步。

第一步,先給 GPT-4 一段文本,并展示 GPT-2 在理解這段文本時(shí)激活的神經(jīng)元情況。

然后讓 GPT-4 來(lái)解釋?zhuān)@段文本中神經(jīng)元的激活情況。

比如示例中給出了一段漫威復(fù)聯(lián)的文本,GPT-4 分析的激活神經(jīng)元為:

電影、角色和娛樂(lè)

第二步,讓 GPT-4 開(kāi)始模擬,這些被解釋的神經(jīng)元接下來(lái)會(huì)做什么。

GPT-4 給出了一段內(nèi)容。

第三步,讓 GPT-2 真實(shí)的神經(jīng)元激活來(lái)生成結(jié)果,然后和 GPT-4 模擬的結(jié)果進(jìn)行比對(duì),研究人員會(huì)對(duì)此打分。

在博客給出的示例中,GPT-4 的得分為 0.34.

使用這個(gè)辦法,研究人員讓 GPT-4 解釋了 GPT-2 一共 307200 個(gè)神經(jīng)元。

OpenAI 表示,使用這一基準(zhǔn),AI 解釋的分?jǐn)?shù)能接近人類(lèi)水平。

從總體結(jié)果來(lái)看,GPT-4 在少數(shù)情況下的解釋得分很高,在 0.8 分以上。

他們還發(fā)現(xiàn),不同層神經(jīng)元被激活的情況,更高層的會(huì)更抽象。

此外,團(tuán)隊(duì)還總結(jié)了如下幾點(diǎn)結(jié)論:

  • 如果讓 GPT-4 重復(fù)解釋?zhuān)牡梅帜芨?/p>

  • 如果使用更強(qiáng)大的模型來(lái)解釋?zhuān)梅忠矔?huì)上升

  • 用不同的激活函數(shù)訓(xùn)練模型,能提高解釋分?jǐn)?shù)

總結(jié)來(lái)看就是,雖然 GPT-4 目前的表現(xiàn)一般,但是這個(gè)方法和思路的提升空間還有很大。

團(tuán)隊(duì)也強(qiáng)調(diào),現(xiàn)在在 GPT-2 上的表現(xiàn)都不太好,如果換成更大、更復(fù)雜的模型,表現(xiàn)也會(huì)比較堪憂。

同時(shí)這種模式也能適用于聯(lián)網(wǎng)的 LLM,研究人員認(rèn)為可以通過(guò)簡(jiǎn)單調(diào)整,來(lái)弄清楚神經(jīng)元如何決策搜索內(nèi)容和訪問(wèn)的網(wǎng)站。

此外他們還表示,在創(chuàng)建這個(gè)解釋系統(tǒng)時(shí)并沒(méi)有考慮商業(yè)化問(wèn)題,理論上除了 GPT-4,其他 LLM 也能實(shí)現(xiàn)類(lèi)似效果。

接下來(lái),他們打算解決研究中的這幾個(gè)問(wèn)題:

  • AI 神經(jīng)元行為十分復(fù)雜,但 GPT-4 給的解釋非常簡(jiǎn)單,所以有些復(fù)雜行為還無(wú)法解釋?zhuān)?/p>

  • 希望最終自動(dòng)找到并解釋復(fù)雜的整個(gè)神經(jīng)回路,神經(jīng)元和注意力頭一起工作;

  • 目前只解釋了神經(jīng)元的行為,但沒(méi)解釋行為背后的機(jī)制;

  • 整個(gè)過(guò)程算力消耗巨大。

網(wǎng)友:快進(jìn)到 AI 創(chuàng)造 AI

意料之中,這項(xiàng)研究馬上在網(wǎng)絡(luò)上引發(fā)熱議。

大家的腦洞畫(huà)風(fēng) be like:“AI 教人類(lèi)理解 AI。”

“AI 教人類(lèi)關(guān)掉 AI 中存在風(fēng)險(xiǎn)的神經(jīng)元?!?/p>

還有人開(kāi)始暢想,AI 理解 AI 會(huì)快速發(fā)展為 AI 訓(xùn)練 AI(已經(jīng)開(kāi)始了),然后再過(guò)不久就是 AI 創(chuàng)造新的 AI 了。

當(dāng)然這也引發(fā)了不少擔(dān)憂,畢竟 GPT-4 本身不還是個(gè)黑盒嘛。

人類(lèi)拿著自己不理解的東西,讓它解釋另一個(gè)自己不理解的東西,這個(gè)風(fēng)險(xiǎn) emm……

這項(xiàng)研究由 OpenAI 負(fù)責(zé)對(duì)齊的團(tuán)隊(duì)提出。

他們表示,這部分工作是他們對(duì)齊研究的第三大支柱的一部分:

我們想要實(shí)現(xiàn)自動(dòng)化對(duì)齊。這種想法一個(gè)值得思考的方面是,它可能隨著 AI 的發(fā)展而擴(kuò)展更多。隨著未來(lái) AI 模型變得越來(lái)越智能,我們也能找到對(duì) AI 更好的解釋。

論文地址:

https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html

參考鏈接:

  • [1]https://openai.com/research/language-models-can-explain-neurons-in-language-models

  • [2]https://www.globalvillagespace.com/tech/openais-tool-explains-language-model-behavior/

本文來(lái)自微信公眾號(hào):量子位 (ID:QbitAI),作者:明敏

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:ChatGPT,OpenAI

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知