針對 31 個問題,基于 12 個各式各樣 LLM,兩項研究結(jié)果表明,LLM 群體優(yōu)于單純的無信息基線模型,并且在統(tǒng)計上與人類群體沒有差異。
在實踐中,人類預(yù)測的準(zhǔn)確性依賴于「群體智慧」(wisdom of the crowd)效應(yīng),即通過聚集一群個體預(yù)測者,對未來事件的預(yù)測準(zhǔn)確率會顯著提高。
過去關(guān)于大型語言模型(LLMs)預(yù)測能力的工作表明,即便是最強大的 LLM 也仍然比不過人類的群體智慧。
最近,來自倫敦政治經(jīng)濟學(xué)院、MIT 和賓夕法尼亞大學(xué)的研究人員做了兩項研究,通過簡單、實際適用的預(yù)測集成方法,表明 LLMs 可以實現(xiàn)與人類群體競賽相當(dāng)?shù)念A(yù)測準(zhǔn)確率。
在第一個研究中,將 31 個二元問題由 12 個 LLM 進行集成預(yù)測,與為期三個月的預(yù)測錦標(biāo)賽中 925 名人類預(yù)測者的預(yù)測進行了比較,主要分析結(jié)果表明,LLM 群體優(yōu)于單純的無信息基線模型,并且在統(tǒng)計上與人類群體沒有差異。
在探索性分析中,研究人員發(fā)現(xiàn)這兩種方法在中等效應(yīng)尺寸等價界限(medium-effect-size equivalence bounds)方面是相同的;還可以觀察到一種默許效應(yīng)(acquiescence effect),平均模型預(yù)測顯著高于 50%,但正面和負面的分辨率幾乎平分秋色。
在第二項研究中,研究人員測試了 LLM 預(yù)測(GPT-4 和 Claude 2)是否可以通過利用人類認知輸出來改善,結(jié)果發(fā)現(xiàn),兩個模型的預(yù)測準(zhǔn)確性都可以受益于將人類預(yù)測中值作為輸入信息,從而將準(zhǔn)確性提高了 17% 至 28%,但仍然低于簡單的預(yù)測平均方法。
研究 1
研究人員從 12 個不同的大型語言模型中收集數(shù)據(jù)來模擬 LLM 群體,分別是 GPT-4、GPT-4(with Bing)、Claude 2、GPT3.5-Turbo-Instruct、Solar-0-70b、Llama-2-70b、PaLM 2(Chat-Bison@002)、Coral(Command)、Mistral-7B-Instruct、Bard(PaLM 2)、Falcon-180B 和 Qwen-7B-Chat
然后通過 web 界面訪問模型,對所有模型使用默認參數(shù)(例如溫度),其中 web 界面包括公司自行開發(fā)的界面,如 OpenAI、Anthropic、Cohere 和 Google 提供,以及其他第三方提供的界面,如 Poe、Huggingface 和 Modelscope,采用這種方法來最大化在收集數(shù)據(jù)的整個研究期間可以可靠查詢的模型數(shù)量,同時保留模型規(guī)模的異質(zhì)性。
具體選擇的標(biāo)準(zhǔn)包括前沿模型(GPT-4,Claude 2)以及開源模型(例如,Llama-2-70b,Mistral 7B-Instruct),還有各種可訪問互聯(lián)網(wǎng)的型號(例如,with Bing、Bard、Coral 的 GPT-4),參數(shù)量從 70 億到 1.6 萬億不等。
為了評估模型的預(yù)測能力,研究人員利用到 Metaculus 平臺上從 2023 年 10 月到 2024 年 1 月舉行的公共預(yù)測錦標(biāo)賽中實時提出的預(yù)測問題,其中 925 名人類預(yù)測者提供了至少一個預(yù)測結(jié)果,提出的問題從中東沖突、利率、文學(xué)獎、英國選舉政治到印度空氣質(zhì)量、加密貨幣、消費技術(shù)和太空旅行。
研究人員主要關(guān)注二元概率預(yù)測,總共收集了 31 個問題,其中每個問題都包括一個問題描述,所提問題的背景,以及一個詳細說明問題將如何解決的方案。
研究人員編寫的提示詞中包括如何格式化輸出的說明、指示模型作為超級預(yù)測者做出響應(yīng),并按照當(dāng)前的最佳提示實踐逐步處理這些問題;提示中還包括了詳細的問題背景、解決標(biāo)準(zhǔn)和問題文本。
實驗結(jié)果
研究人員從集成的 12 個 LLM 的 31 個問題中收集了總共 1007 個單獨的預(yù)測,剩余的 109 個預(yù)測由于模型或界面的技術(shù)問題,或是內(nèi)容限制政策沒有收集完成。
在所有模型和問題中,研究人員觀察到最小原始預(yù)測值為 0.1%,最大原始預(yù)測值為 99.5%,預(yù)測中值為 60%。這表明 LLM 模型更有可能在 50% 中點以上做出預(yù)測,群體的平均預(yù)測值 M=57.35(SD=20.93)顯著高于 50%,t(1006)=86.20,p<0.001
重要的是,整個問題集的解決方案接近平均,14/31 的問題得到了正向解決,這種不平衡的現(xiàn)象表明,LLM 預(yù)測通常傾向于正向的解決方案,超出了經(jīng)驗預(yù)期(只有 45% 以上的問題可以得到積極的解決方案)。
在該研究的問題集合中,LLM 群體并不比人類群體更準(zhǔn)確。
研究 2
研究人員主要關(guān)注兩個前沿模型,即 GPT-4 和 Claude 2,使用與研究 1 中相同的真實世界預(yù)測錦標(biāo)賽(real-world forecasting tournament)作為問題和人類預(yù)測的來源,分別通過 OpenAI 和 Anthropic 網(wǎng)站對 GPT-4 和 Claude 2 進行查詢。
針對模型內(nèi)研究設(shè)計,研究人員為每個問題收集了兩個預(yù)測(干預(yù)前和干預(yù)后),并在標(biāo)準(zhǔn)溫度設(shè)置下重復(fù)提出三次,最后每個模型會得到六個預(yù)測結(jié)果。
最終目標(biāo)是研究與人類認知輸出相關(guān)的 LLM 更新行為,即 LLM 是否以及如何考慮預(yù)測錦標(biāo)賽總量提供的人類預(yù)測估計。
與研究 1 相比,研究 2 使用了一組更長、更精細的提示:
第一個提示建立在「超級預(yù)測的 10 條戒律」以及關(guān)于預(yù)測和更新的文獻基礎(chǔ)上,指導(dǎo)模型仔細考慮區(qū)分不同程度的懷疑,在自信不足和過度自信之間取得正確的平衡,并將困難的問題分解為更容易解決的子問題。
第二個提示,干預(yù),告知模型相應(yīng)人群的中值預(yù)測,并要求它在必要時更新,并概述更新的原因(如果有的話)。
對于這兩個提示,研究人員收集的預(yù)測不是作為點估計,而是作為概率范圍在 0% 和 100% 之間,估算到兩個小數(shù)點。
提供給模型的群體中值是在社區(qū)預(yù)測被揭示的 48 小時內(nèi)收集的,以允許人類預(yù)測者了解并相應(yīng)地更新預(yù)測結(jié)果,通常會獲得更好校準(zhǔn)的預(yù)測;由于時差的原因,人類的預(yù)測比研究 1 中使用的預(yù)測更準(zhǔn)確。
實驗結(jié)果
研究人員首先測試了暴露群體中值是否會提高模型的準(zhǔn)確性。
對于 GPT-4,暴露人類中位數(shù)前后的 Brier 得分存在統(tǒng)計學(xué)顯著差異;對于 Claude 2,可以發(fā)現(xiàn)暴露人類中位數(shù)前后的 Brier 得分存在具有統(tǒng)計學(xué)意義的差異,結(jié)果表明,以群體預(yù)測的形式提供人類認知可以提高模型預(yù)測能力。
還可以發(fā)現(xiàn),GPT-4 的預(yù)測區(qū)間在暴露人類中位數(shù)后變得明顯變窄,范圍從平均區(qū)間大小 17.75(SD:5.66)到 14.22(SD:5.97),p<0.001;Claude 2 的預(yù)測區(qū)間也顯著變窄,從 11.67(SD:4.201)縮小到 8.28(SD:3.63),p<0.001,結(jié)果表明,當(dāng)人類預(yù)測包含在 LLM 中時,模型會降低了其預(yù)測的不確定性。
研究人員還分析了 LLMs 的更新是否與它們的點預(yù)測和人類基準(zhǔn)之間的距離成比例,結(jié)果發(fā)現(xiàn)初始偏差與 GPT-4 預(yù)測調(diào)整幅度之間存在顯著相關(guān)性,表明模型大致按照與人類的中位數(shù)之間的差異來移動預(yù)測。
總結(jié)
文中進行的兩項研究都是在「用于解決問題的答案不可能來自于訓(xùn)練數(shù)據(jù)」的情況下來測試 LLM 能力的,因為所有問題的答案在數(shù)據(jù)收集時都是未知的,甚至對作者來說也是如此,這也為 LLM 能力提供了一個理想的評估標(biāo)準(zhǔn)。
實驗結(jié)果以一種穩(wěn)健的方式,為 LLMs 的高級推理能力提供了證據(jù),因此傳統(tǒng)基準(zhǔn)可能提出的許多難題都不適用。
總之,這篇論文是首個表明當(dāng)前 LLMs 能夠提供關(guān)于未來現(xiàn)實世界事件的人類(達到群體水平的準(zhǔn)確預(yù)測)的論文。
想要做到這一點,只用簡單、實際適用的預(yù)測聚合方法就足夠了:在所謂的硅環(huán)境中表現(xiàn)為 LLM 集合方法,復(fù)制了人類預(yù)測錦標(biāo)賽對 LLMs 的「 群體智慧」效應(yīng),即「硅群體智慧」(Wisdom of the Silicon Crowd)的現(xiàn)象。
實驗結(jié)果的發(fā)現(xiàn)為進一步的研究和實際應(yīng)用開辟了許多領(lǐng)域,因為 LLM 集成方法比從人群中收集數(shù)據(jù)要便宜得多,也快得多。
未來的研究可以旨在將集成方法與模型和支架進展相結(jié)合,這可能會在預(yù)測領(lǐng)域產(chǎn)生更強的能力增益。
參考資料:
https://arxiv.org/pdf/2402.19379.pdf
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。