設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

MIT 等首次深度研究「集成 LLM」預(yù)測(cè)能力:可媲美人類群體準(zhǔn)確率

新智元 2024/4/12 22:45:23 責(zé)編:問(wèn)舟

針對(duì) 31 個(gè)問(wèn)題,基于 12 個(gè)各式各樣 LLM,兩項(xiàng)研究結(jié)果表明,LLM 群體優(yōu)于單純的無(wú)信息基線模型,并且在統(tǒng)計(jì)上與人類群體沒(méi)有差異。

在實(shí)踐中,人類預(yù)測(cè)的準(zhǔn)確性依賴于「群體智慧」(wisdom of the crowd)效應(yīng),即通過(guò)聚集一群個(gè)體預(yù)測(cè)者,對(duì)未來(lái)事件的預(yù)測(cè)準(zhǔn)確率會(huì)顯著提高。

過(guò)去關(guān)于大型語(yǔ)言模型(LLMs)預(yù)測(cè)能力的工作表明,即便是最強(qiáng)大的 LLM 也仍然比不過(guò)人類的群體智慧。

最近,來(lái)自倫敦政治經(jīng)濟(jì)學(xué)院、MIT 和賓夕法尼亞大學(xué)的研究人員做了兩項(xiàng)研究,通過(guò)簡(jiǎn)單、實(shí)際適用的預(yù)測(cè)集成方法,表明 LLMs 可以實(shí)現(xiàn)與人類群體競(jìng)賽相當(dāng)?shù)念A(yù)測(cè)準(zhǔn)確率。

論文鏈接:https://arxiv.org/ pdf / 2402.19379.pdf

在第一個(gè)研究中,將 31 個(gè)二元問(wèn)題由 12 個(gè) LLM 進(jìn)行集成預(yù)測(cè),與為期三個(gè)月的預(yù)測(cè)錦標(biāo)賽中 925 名人類預(yù)測(cè)者的預(yù)測(cè)進(jìn)行了比較,主要分析結(jié)果表明,LLM 群體優(yōu)于單純的無(wú)信息基線模型,并且在統(tǒng)計(jì)上與人類群體沒(méi)有差異。

在探索性分析中,研究人員發(fā)現(xiàn)這兩種方法在中等效應(yīng)尺寸等價(jià)界限(medium-effect-size equivalence bounds)方面是相同的;還可以觀察到一種默許效應(yīng)(acquiescence effect),平均模型預(yù)測(cè)顯著高于 50%,但正面和負(fù)面的分辨率幾乎平分秋色。

在第二項(xiàng)研究中,研究人員測(cè)試了 LLM 預(yù)測(cè)(GPT-4 和 Claude 2)是否可以通過(guò)利用人類認(rèn)知輸出來(lái)改善,結(jié)果發(fā)現(xiàn),兩個(gè)模型的預(yù)測(cè)準(zhǔn)確性都可以受益于將人類預(yù)測(cè)中值作為輸入信息,從而將準(zhǔn)確性提高了 17% 至 28%,但仍然低于簡(jiǎn)單的預(yù)測(cè)平均方法。

研究 1

研究人員從 12 個(gè)不同的大型語(yǔ)言模型中收集數(shù)據(jù)來(lái)模擬 LLM 群體,分別是 GPT-4、GPT-4(with Bing)、Claude 2、GPT3.5-Turbo-Instruct、Solar-0-70b、Llama-2-70b、PaLM 2(Chat-Bison@002)、Coral(Command)、Mistral-7B-Instruct、Bard(PaLM 2)、Falcon-180B 和 Qwen-7B-Chat

然后通過(guò) web 界面訪問(wèn)模型,對(duì)所有模型使用默認(rèn)參數(shù)(例如溫度),其中 web 界面包括公司自行開(kāi)發(fā)的界面,如 OpenAI、Anthropic、Cohere 和 Google 提供,以及其他第三方提供的界面,如 Poe、Huggingface 和 Modelscope,采用這種方法來(lái)最大化在收集數(shù)據(jù)的整個(gè)研究期間可以可靠查詢的模型數(shù)量,同時(shí)保留模型規(guī)模的異質(zhì)性。

具體選擇的標(biāo)準(zhǔn)包括前沿模型(GPT-4,Claude 2)以及開(kāi)源模型(例如,Llama-2-70b,Mistral 7B-Instruct),還有各種可訪問(wèn)互聯(lián)網(wǎng)的型號(hào)(例如,with Bing、Bard、Coral 的 GPT-4),參數(shù)量從 70 億到 1.6 萬(wàn)億不等。

為了評(píng)估模型的預(yù)測(cè)能力,研究人員利用到 Metaculus 平臺(tái)上從 2023 年 10 月到 2024 年 1 月舉行的公共預(yù)測(cè)錦標(biāo)賽中實(shí)時(shí)提出的預(yù)測(cè)問(wèn)題,其中 925 名人類預(yù)測(cè)者提供了至少一個(gè)預(yù)測(cè)結(jié)果,提出的問(wèn)題從中東沖突、利率、文學(xué)獎(jiǎng)、英國(guó)選舉政治到印度空氣質(zhì)量、加密貨幣、消費(fèi)技術(shù)和太空旅行。

研究人員主要關(guān)注二元概率預(yù)測(cè),總共收集了 31 個(gè)問(wèn)題,其中每個(gè)問(wèn)題都包括一個(gè)問(wèn)題描述,所提問(wèn)題的背景,以及一個(gè)詳細(xì)說(shuō)明問(wèn)題將如何解決的方案。

研究人員編寫(xiě)的提示詞中包括如何格式化輸出的說(shuō)明、指示模型作為超級(jí)預(yù)測(cè)者做出響應(yīng),并按照當(dāng)前的最佳提示實(shí)踐逐步處理這些問(wèn)題;提示中還包括了詳細(xì)的問(wèn)題背景、解決標(biāo)準(zhǔn)和問(wèn)題文本。

實(shí)驗(yàn)結(jié)果

研究人員從集成的 12 個(gè) LLM 的 31 個(gè)問(wèn)題中收集了總共 1007 個(gè)單獨(dú)的預(yù)測(cè),剩余的 109 個(gè)預(yù)測(cè)由于模型或界面的技術(shù)問(wèn)題,或是內(nèi)容限制政策沒(méi)有收集完成。

在所有模型和問(wèn)題中,研究人員觀察到最小原始預(yù)測(cè)值為 0.1%,最大原始預(yù)測(cè)值為 99.5%,預(yù)測(cè)中值為 60%。這表明 LLM 模型更有可能在 50% 中點(diǎn)以上做出預(yù)測(cè),群體的平均預(yù)測(cè)值 M=57.35(SD=20.93)顯著高于 50%,t(1006)=86.20,p<0.001

重要的是,整個(gè)問(wèn)題集的解決方案接近平均,14/31 的問(wèn)題得到了正向解決,這種不平衡的現(xiàn)象表明,LLM 預(yù)測(cè)通常傾向于正向的解決方案,超出了經(jīng)驗(yàn)預(yù)期(只有 45% 以上的問(wèn)題可以得到積極的解決方案)。

在該研究的問(wèn)題集合中,LLM 群體并不比人類群體更準(zhǔn)確。

研究 2

研究人員主要關(guān)注兩個(gè)前沿模型,即 GPT-4 和 Claude 2,使用與研究 1 中相同的真實(shí)世界預(yù)測(cè)錦標(biāo)賽(real-world forecasting tournament)作為問(wèn)題和人類預(yù)測(cè)的來(lái)源,分別通過(guò) OpenAI 和 Anthropic 網(wǎng)站對(duì) GPT-4 和 Claude 2 進(jìn)行查詢。

針對(duì)模型內(nèi)研究設(shè)計(jì),研究人員為每個(gè)問(wèn)題收集了兩個(gè)預(yù)測(cè)(干預(yù)前和干預(yù)后),并在標(biāo)準(zhǔn)溫度設(shè)置下重復(fù)提出三次,最后每個(gè)模型會(huì)得到六個(gè)預(yù)測(cè)結(jié)果。

最終目標(biāo)是研究與人類認(rèn)知輸出相關(guān)的 LLM 更新行為,即 LLM 是否以及如何考慮預(yù)測(cè)錦標(biāo)賽總量提供的人類預(yù)測(cè)估計(jì)。

與研究 1 相比,研究 2 使用了一組更長(zhǎng)、更精細(xì)的提示:

第一個(gè)提示建立在「超級(jí)預(yù)測(cè)的 10 條戒律」以及關(guān)于預(yù)測(cè)和更新的文獻(xiàn)基礎(chǔ)上,指導(dǎo)模型仔細(xì)考慮區(qū)分不同程度的懷疑,在自信不足和過(guò)度自信之間取得正確的平衡,并將困難的問(wèn)題分解為更容易解決的子問(wèn)題。

第二個(gè)提示,干預(yù),告知模型相應(yīng)人群的中值預(yù)測(cè),并要求它在必要時(shí)更新,并概述更新的原因(如果有的話)。

對(duì)于這兩個(gè)提示,研究人員收集的預(yù)測(cè)不是作為點(diǎn)估計(jì),而是作為概率范圍在 0% 和 100% 之間,估算到兩個(gè)小數(shù)點(diǎn)。

提供給模型的群體中值是在社區(qū)預(yù)測(cè)被揭示的 48 小時(shí)內(nèi)收集的,以允許人類預(yù)測(cè)者了解并相應(yīng)地更新預(yù)測(cè)結(jié)果,通常會(huì)獲得更好校準(zhǔn)的預(yù)測(cè);由于時(shí)差的原因,人類的預(yù)測(cè)比研究 1 中使用的預(yù)測(cè)更準(zhǔn)確。

實(shí)驗(yàn)結(jié)果

研究人員首先測(cè)試了暴露群體中值是否會(huì)提高模型的準(zhǔn)確性。

對(duì)于 GPT-4,暴露人類中位數(shù)前后的 Brier 得分存在統(tǒng)計(jì)學(xué)顯著差異;對(duì)于 Claude 2,可以發(fā)現(xiàn)暴露人類中位數(shù)前后的 Brier 得分存在具有統(tǒng)計(jì)學(xué)意義的差異,結(jié)果表明,以群體預(yù)測(cè)的形式提供人類認(rèn)知可以提高模型預(yù)測(cè)能力。

還可以發(fā)現(xiàn),GPT-4 的預(yù)測(cè)區(qū)間在暴露人類中位數(shù)后變得明顯變窄,范圍從平均區(qū)間大小 17.75(SD:5.66)到 14.22(SD:5.97),p<0.001;Claude 2 的預(yù)測(cè)區(qū)間也顯著變窄,從 11.67(SD:4.201)縮小到 8.28(SD:3.63),p<0.001,結(jié)果表明,當(dāng)人類預(yù)測(cè)包含在 LLM 中時(shí),模型會(huì)降低了其預(yù)測(cè)的不確定性。

研究人員還分析了 LLMs 的更新是否與它們的點(diǎn)預(yù)測(cè)和人類基準(zhǔn)之間的距離成比例,結(jié)果發(fā)現(xiàn)初始偏差與 GPT-4 預(yù)測(cè)調(diào)整幅度之間存在顯著相關(guān)性,表明模型大致按照與人類的中位數(shù)之間的差異來(lái)移動(dòng)預(yù)測(cè)。

總結(jié)

文中進(jìn)行的兩項(xiàng)研究都是在「用于解決問(wèn)題的答案不可能來(lái)自于訓(xùn)練數(shù)據(jù)」的情況下來(lái)測(cè)試 LLM 能力的,因?yàn)樗袉?wèn)題的答案在數(shù)據(jù)收集時(shí)都是未知的,甚至對(duì)作者來(lái)說(shuō)也是如此,這也為 LLM 能力提供了一個(gè)理想的評(píng)估標(biāo)準(zhǔn)。

實(shí)驗(yàn)結(jié)果以一種穩(wěn)健的方式,為 LLMs 的高級(jí)推理能力提供了證據(jù),因此傳統(tǒng)基準(zhǔn)可能提出的許多難題都不適用。

總之,這篇論文是首個(gè)表明當(dāng)前 LLMs 能夠提供關(guān)于未來(lái)現(xiàn)實(shí)世界事件的人類(達(dá)到群體水平的準(zhǔn)確預(yù)測(cè))的論文。

想要做到這一點(diǎn),只用簡(jiǎn)單、實(shí)際適用的預(yù)測(cè)聚合方法就足夠了:在所謂的硅環(huán)境中表現(xiàn)為 LLM 集合方法,復(fù)制了人類預(yù)測(cè)錦標(biāo)賽對(duì) LLMs 的「 群體智慧」效應(yīng),即「硅群體智慧」(Wisdom of the Silicon Crowd)的現(xiàn)象。

實(shí)驗(yàn)結(jié)果的發(fā)現(xiàn)為進(jìn)一步的研究和實(shí)際應(yīng)用開(kāi)辟了許多領(lǐng)域,因?yàn)?LLM 集成方法比從人群中收集數(shù)據(jù)要便宜得多,也快得多。

未來(lái)的研究可以旨在將集成方法與模型和支架進(jìn)展相結(jié)合,這可能會(huì)在預(yù)測(cè)領(lǐng)域產(chǎn)生更強(qiáng)的能力增益。

參考資料:

  • https://arxiv.org/pdf/2402.19379.pdf

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知