GPT-4 通過圖靈測試了!UCSD 研究團(tuán)隊通過實證研究,人類無法將 GPT-4 與人類進(jìn)行區(qū)分。而且,有 54% 的情況下,它被判定為人類。
GPT-4 可以通過圖靈測試嗎?當(dāng)一個足以強(qiáng)大的模型誕生之后,人們往往會用圖靈測試去衡量這一 LLM 的智能程度。最近,來自 UCSD 的認(rèn)知科學(xué)系研究人員發(fā)現(xiàn):
在圖靈測試中,人們根本無法區(qū)分 GPT-4 與人類!
在圖靈測試中,GPT-4 有 54% 的情況下,被判定為人類。
實驗結(jié)果更是表明,這是首次有系統(tǒng)在「交互式」雙人圖靈測試中,被實證通過測試。
研究者 Cameron R.Jones 招募了 500 名志愿者,他們被分為 5 個角色:4 個評估員,分別是 GPT-4、GPT-3.5、ELIZA 和人類,另一個角色就「扮演」人類自己,藏在屏幕另一端,等待著評估員的發(fā)現(xiàn)。
以下是節(jié)選的游戲,你能看出哪個對話框是人類嗎?
其實,這四段對話中,有一段是與人類證人的對話,其余都是與人工智能的對話。
首次開啟受控「圖靈測試」
過去 74 年里,人們進(jìn)行了許多圖靈測試的嘗試,但很少進(jìn)行過受控實驗。
著名的 Loebner 獎是一項年度競賽,然而從 1990 年首次舉辦一直到 2020 年,沒有一個系統(tǒng)通過測試。
最近的一項大規(guī)模研究發(fā)現(xiàn),人類在 2 分鐘的在線對話中,識別一系列 LLM 準(zhǔn)確率達(dá)到 60%。
迄今為止,還沒有任何機(jī)器通過測試的「受控」實驗演示。
為了測試人們是否有可能識破當(dāng)前 AI 系統(tǒng)的欺騙行為,研究人員使用 GPT-4 進(jìn)行了一次隨機(jī)控制的雙人圖靈測試。
測試要求很簡單,即人類參與者與人類、人工智能開啟 5 分鐘對話,并判斷對話者是否是人類。
正如開篇所述,研究人員一共測評了 3 個模型 ——GPT-4、GPT-3.5,以及 ELIZA。
針對前兩個 LLM,研究者通過改編 GPT-4 和 GPT-3.5 探索性研究中表現(xiàn)最佳的提示,來指示大模型如何去響應(yīng)消息。
研究人員稱,解釋圖靈測試的一個核心挑戰(zhàn)是,系統(tǒng)表現(xiàn)出色可能源于兩種原因:
- 一是出色地模仿人類
- 二是評判者過于輕信
后一種情況,常被稱為 ELIZA 效應(yīng),即參與者甚至?xí)⒑唵蔚南到y(tǒng)也人性化。
ELIZA 系統(tǒng)對于每個人來說,再熟悉不過了。
它是 20 世紀(jì) 60 年代的一款基于規(guī)則的簡單聊天機(jī)器人,但用戶發(fā)現(xiàn)自己也會將人類特征歸因于它。
因此,在實驗中,研究人員將 ELIZA 作為基線,一方面是為了從經(jīng)驗上量化 ELIZA 效應(yīng),另一方面也是為了在實驗中進(jìn)行操作檢查。
那么,這項圖靈測試的結(jié)果,具體如何呢?
GPT-4 通過率 54%
首先看一個重要的指標(biāo):通過率。
研究者將通過率定義為在游戲中,評估對象被評估者判定為人類的比例。
GPT-4 的通過率為 54%,超過了 GPT-3.5(50%)和 ELIZA 基線(22%),但低于人類被試者(67%)。
這個結(jié)果其實并不令人意外,與研究初始階段的設(shè)想基本相符合。
在試驗之前,研究者就做出了幾個假設(shè):首先,假設(shè)人類在檢測 GPT-4 方面的能力不會超過偶然性(50%)。
為了驗證這一點(diǎn),研究者擬合了一個邏輯回歸模型來預(yù)測只有截距的通過率。
截距與 0(z=0.14, p=0.482)沒有明顯差距,這表明 GPT-4 的通過率可以約等于 50%。貝葉斯模型預(yù)測 GPT-4 截距的 95% 可信區(qū)間為-0.24-0.55(相當(dāng)于 44%-63% 的通過率)。
這意味著,人類在面對 GPT-4 時,成功分辨的概率跟拋硬幣差不多!
結(jié)果還證實了研究人員的第二和第三個假設(shè):人類的通過率明顯高于 GPT-4 的通過率(z=2.42,p=0.017),而 GPT-4 的通過率高于 ELIZA 的通過率(z=4.11,p<0.001)。
然而,與研究者的試驗設(shè)想不一致的是:GPT-4 和 GPT-3.5 的表現(xiàn)幾乎差不多(z=0.497,p=0.619)。
在「偽裝人類」這一塊,打了個平手。
同樣出人意料的是,那些自稱更了解 LLM 工作原理的參與者并沒有更成功地識別出 LLM(z = -0.023,p = 0.869)。
在探索性分析中,研究者發(fā)現(xiàn)年齡對詢問者的準(zhǔn)確性有負(fù)面影響(z = -2.24,p = 0.025),但其他人口統(tǒng)計學(xué)變量(包括性別、教育水平和與聊天機(jī)器人互動的頻率)則沒有顯著影響。
為什么會是這樣的結(jié)果?讓我們來分析一下背后的原因。
為了深入了解到底是什么在影響評估者的決策,我們對評估者使用的策略和他們?yōu)闆Q策提供的理由進(jìn)行了分類。
36% 的評估者會與評估對象閑聊,詢問一些個人細(xì)節(jié)或日?;顒印?/p>
第二類和第三類最常用的策略是社交與情感(25%)—— 例如,詢問評估對象的觀點(diǎn)和經(jīng)歷,觀察他們是否具備幽默感。
還有人側(cè)重考察知識與推理(13%),包括有關(guān)數(shù)學(xué)、邏輯和常識的問題。
為了對比每種策略的有效性,研究者計算了使用這些策略的平均準(zhǔn)確率。
當(dāng)評估對象問及對方有關(guān)人類經(jīng)歷(75%)、邏輯和數(shù)學(xué)(78%)或直接「指控」對方是人工智能(80%)時,通常會距離「正確答案」更近。
在游戲中,人工智能之所以會「露出馬腳」,通常是因為評估者認(rèn)為他們似乎在強(qiáng)迫自己扮演角色,要么過于隨意,要么則缺乏個性。
而 ELIZA 很容易「暴露」,主要是因為反應(yīng)不自然和缺乏語境意識。
可以看出,無論是從參與游戲的志愿者所使用的策略還是決策理由來看,他們都更注重語言風(fēng)格和社會情感因素,而不是更傳統(tǒng)的智力范疇(知識和推理)。
這似乎反映出志愿者們的一個潛在假設(shè) —— 社會智能才是 AI 最無法模仿的人類特征。
圖靈測試,過了
如何判斷系統(tǒng)何時通過了圖靈測試?
圖靈在 1950 年的論文中預(yù)測,到本世紀(jì)末,AI 系統(tǒng)將能夠很好地玩模仿游戲,以至于審查員在 5 分鐘的交流后,做出正確識別的機(jī)會不會超過 70%。
這一結(jié)論,導(dǎo)致了 AI 的通過率是否能夠達(dá)到 30%,成為許多研究者的討論目標(biāo)。
然而,這個基準(zhǔn)似乎是任意的,并且不清楚圖靈是否將其作為成功的定義。
其實,50% 的基線更加合理,因為它更能證明人類審查者,在識別 AI 方面并不比偶然性更強(qiáng)。
這一定義,與發(fā)現(xiàn)用戶是否可以在在線互動中,可靠地識別其他人類這一目標(biāo)尤為相關(guān)。
在研究者的預(yù)公開的分析中,通過使用 ELIZA 基線作為操作檢查來解決這個問題。
只有當(dāng)分析表明 ELIZA 的通過率低于概率,而 GPT-4 的通過率不低于概率的情況下,才能判定模型通過了測試。
而根據(jù)這一定義,GPT-4 顯然通過了這一版本的圖靈測試。
此外,參與者的置信度得分和決策依據(jù),都表明他們并非隨意猜測:GPT-4 是人類的平均置信度為 73%(見圖 2)。
網(wǎng)友討論
有網(wǎng)友表示,如果我們要將圖靈測試等同于智力,圖靈測試就不是一個好的測試。然而,AI 幾乎始終可以「欺騙」人類的事實有點(diǎn)令人擔(dān)憂。
還有人稱,自己對這種測試表示懷疑。因為 GPT-4 的表現(xiàn)會超過大多數(shù)人,所以很容易區(qū)分誰是人類,誰是人工智能。
研究者對此表示,這確實是我們遇到的一個問題。比如,GPT-4 的知識儲備「太豐富」或者掌握的語言太多。我們明確提示該模型避免這種情況,這在一定程度上是有效的。
參考資料:
https://x.com/camrobjones/status/1790766472458903926
https://x.com/emollick/status/1790877242525942156
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。