o1-preview 終于贏過了 mini 一次!亞利桑那州立大學(xué)的最新研究表明,o1-preview 在規(guī)劃任務(wù)上,表現(xiàn)顯著優(yōu)于 o1-mini。
相比于傳統(tǒng)模型的優(yōu)勢(shì)更是碾壓級(jí)別,在超難任務(wù)上的準(zhǔn)確率比 Llama3.1-405B 高了 11 倍。
要知道之前,OpenAI 自己人也發(fā)了一張圖,顯示 preview 論性能比不過滿血版,論經(jīng)濟(jì)性又不如 mini,處于一個(gè)十分尷尬的地位。
作者在推文中表示,盡管存在可保證性和成本問題,但僅針對(duì) CoT 而言,o1 已經(jīng)超越了大模型的“近似檢索”性質(zhì),提升到了“近似推理”層次。
并且在論文中,o1 全程被稱作 LRM(Large Reasoning Model,大型推理模型),而非一般大型語言模型的 LLM。
o1 團(tuán)隊(duì)的核心成員 Noam Brown 也轉(zhuǎn)發(fā)了這項(xiàng)研究,順便給 o1-preview 打了個(gè) call。
還有網(wǎng)友翻出了隔壁 Meta 的 LeCun 半個(gè)多月前的推文,當(dāng)時(shí) LeCun 說大模型沒有規(guī)劃能力,結(jié)果現(xiàn)在 OpenAI 就帶著 o1 來踢館了。
用“搭積木”測(cè)試大模型
為了評(píng)估 o1 系列模型的規(guī)劃能力,作者使用了 PlanBench 評(píng)估基準(zhǔn)。
該基準(zhǔn)的提出者中也正好包含了本文三名作者中的兩名 —— 共同一作 Karthik Valmeekam,以及他的導(dǎo)師 Subbarao Kambhampati。
PlanBench 專門為評(píng)估大模型規(guī)劃能力而設(shè)計(jì),任務(wù)類型涵蓋了計(jì)劃生成、成本最優(yōu)規(guī)劃、計(jì)劃驗(yàn)證等。
具體到這個(gè)實(shí)驗(yàn),作者使用了其中來自于國際規(guī)劃競(jìng)賽(IPC)的 Blocksworld 和其變體。
此類問題涉及在桌子上堆疊積木塊,目標(biāo)是從一個(gè)初始狀態(tài),重新排列到目標(biāo)配置。
木塊用不同的顏色標(biāo)識(shí),一次只能移動(dòng)一個(gè)積木塊,且只能移動(dòng)每一堆中頂部的積木塊,被拿起的積木塊也只能放在頂部或直接放在桌子上。
變體 Mystery Blocksworld 則是在 Blockworlds 的基礎(chǔ)上加入混淆機(jī)制,用一些毫不相干的詞語來代替操作中的動(dòng)作。
在此基礎(chǔ)之上,還有更為復(fù)雜的全隨機(jī)變體,指令進(jìn)一步從其他英文單詞變成了無意義的字符串。
在 o1 之前,Blockworlds 上的 SOTA 模型是 Llama3.1-405B,成績?yōu)檫_(dá)到 62.6%,而在 Mystery Blockworlds 上,沒有任何模型的成績能超過 5%。
o1-preview 超強(qiáng)規(guī)劃
o1 這邊的測(cè)試結(jié)果顯示,preview 相比 mini,成績優(yōu)勢(shì)十分明顯。
在 Blockworlds 任務(wù)上,preview 版準(zhǔn)確率達(dá) 98%,而 mini 只有 56.6%,表現(xiàn)還不如 llama。
當(dāng)然加入了混淆之后,mini 相比于 llama 也顯示出了一些優(yōu)勢(shì) ——
在零樣本配置下,preview 版的準(zhǔn)確率超過了一半,比 llama 的 4.3% 高出了 11 倍多;mini 版也達(dá)到了 19.1%,比 llama 高 3.4 倍。
最后在全隨機(jī)版本下,o1-preview 還能擁有 37.3% 的準(zhǔn)確率。
以上結(jié)果顯示出了 o1 系列模型,特別是 o1-preview 的超強(qiáng)規(guī)劃能力,但是不足之處也十分明顯。
一是隨著規(guī)劃長度的增加,模型的性能也會(huì)迅速下降,即使對(duì)于未混淆的 Blockworlds 來說也同樣如此。
另外,Blockworlds 系列問題并非全部可解,作者發(fā)現(xiàn) o1 在識(shí)別不可解問題上的準(zhǔn)確率依然存在不足。
對(duì)于未混淆版本準(zhǔn)確率只有 27%,但沒有誤判為不可解的情況;對(duì)于全隨機(jī)版本則只有 16%,另外還有 11.5% 的概率將可解問題誤判為不可解。
甚至作者還發(fā)現(xiàn),o1 有時(shí)也會(huì)狡辯,提出令人信服的合理理由,讓人們相信其錯(cuò)誤答案。
在模型本身的性能之外,成本和時(shí)間消耗也是一個(gè)重要考量,相比于傳統(tǒng)大模型,o1-mini 的成本相比 GPT4-Turbo 直接翻番,preview 更是高出了數(shù)量級(jí)。
那么,如果你是開發(fā)者,會(huì)愿意為了 o1 的高性能付出更多的成本嗎?歡迎評(píng)論區(qū)交流。
論文地址:
https://arxiv.org/abs/2409.13373
參考鏈接:
https://x.com/rao2z/status/1838245261950509170
本文來自微信公眾號(hào):量子位(ID:QbitAI),作者:克小西
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。