首頁 > 智能時(shí)代>人工智能

o1 規(guī)劃能力首測(cè)：已超越語言模型范疇，preview 終于贏 mini 一回

量子位 2024/9/28 15:09:17 責(zé)編：清源

評(píng)論：

o1-preview 終于贏過了 mini 一次！亞利桑那州立大學(xué)的最新研究表明，o1-preview 在規(guī)劃任務(wù)上，表現(xiàn)顯著優(yōu)于 o1-mini。

相比于傳統(tǒng)模型的優(yōu)勢(shì)更是碾壓級(jí)別，在超難任務(wù)上的準(zhǔn)確率比 Llama3.1-405B 高了 11 倍。

o1 規(guī)劃能力首測(cè)：已超越語言模型范疇，preview 終于贏 mini 一回

要知道之前，OpenAI 自己人也發(fā)了一張圖，顯示 preview 論性能比不過滿血版，論經(jīng)濟(jì)性又不如 mini，處于一個(gè)十分尷尬的地位。

o1 規(guī)劃能力首測(cè)：已超越語言模型范疇，preview 終于贏 mini 一回

作者在推文中表示，盡管存在可保證性和成本問題，但僅針對(duì) CoT 而言，o1 已經(jīng)超越了大模型的“近似檢索”性質(zhì)，提升到了“近似推理”層次。

并且在論文中，o1 全程被稱作 LRM（Large Reasoning Model，大型推理模型），而非一般大型語言模型的 LLM。

o1 規(guī)劃能力首測(cè)：已超越語言模型范疇，preview 終于贏 mini 一回

o1 團(tuán)隊(duì)的核心成員 Noam Brown 也轉(zhuǎn)發(fā)了這項(xiàng)研究，順便給 o1-preview 打了個(gè) call。

o1 規(guī)劃能力首測(cè)：已超越語言模型范疇，preview 終于贏 mini 一回

還有網(wǎng)友翻出了隔壁 Meta 的 LeCun 半個(gè)多月前的推文，當(dāng)時(shí) LeCun 說大模型沒有規(guī)劃能力，結(jié)果現(xiàn)在 OpenAI 就帶著 o1 來踢館了。

o1 規(guī)劃能力首測(cè)：已超越語言模型范疇，preview 終于贏 mini 一回

用“搭積木”測(cè)試大模型

為了評(píng)估 o1 系列模型的規(guī)劃能力，作者使用了 PlanBench 評(píng)估基準(zhǔn)。

該基準(zhǔn)的提出者中也正好包含了本文三名作者中的兩名 —— 共同一作 Karthik Valmeekam，以及他的導(dǎo)師 Subbarao Kambhampati。

PlanBench 專門為評(píng)估大模型規(guī)劃能力而設(shè)計(jì)，任務(wù)類型涵蓋了計(jì)劃生成、成本最優(yōu)規(guī)劃、計(jì)劃驗(yàn)證等。

具體到這個(gè)實(shí)驗(yàn)，作者使用了其中來自于國際規(guī)劃競(jìng)賽（IPC）的 Blocksworld 和其變體。

此類問題涉及在桌子上堆疊積木塊，目標(biāo)是從一個(gè)初始狀態(tài)，重新排列到目標(biāo)配置。

木塊用不同的顏色標(biāo)識(shí)，一次只能移動(dòng)一個(gè)積木塊，且只能移動(dòng)每一堆中頂部的積木塊，被拿起的積木塊也只能放在頂部或直接放在桌子上。

o1 規(guī)劃能力首測(cè)：已超越語言模型范疇，preview 終于贏 mini 一回

變體 Mystery Blocksworld 則是在 Blockworlds 的基礎(chǔ)上加入混淆機(jī)制，用一些毫不相干的詞語來代替操作中的動(dòng)作。

o1 規(guī)劃能力首測(cè)：已超越語言模型范疇，preview 終于贏 mini 一回

在此基礎(chǔ)之上，還有更為復(fù)雜的全隨機(jī)變體，指令進(jìn)一步從其他英文單詞變成了無意義的字符串。

o1 規(guī)劃能力首測(cè)：已超越語言模型范疇，preview 終于贏 mini 一回

在 o1 之前，Blockworlds 上的 SOTA 模型是 Llama3.1-405B，成績?yōu)檫_(dá)到 62.6%，而在 Mystery Blockworlds 上，沒有任何模型的成績能超過 5%。

o1 規(guī)劃能力首測(cè)：已超越語言模型范疇，preview 終于贏 mini 一回

o1-preview 超強(qiáng)規(guī)劃

o1 這邊的測(cè)試結(jié)果顯示，preview 相比 mini，成績優(yōu)勢(shì)十分明顯。

在 Blockworlds 任務(wù)上，preview 版準(zhǔn)確率達(dá) 98%，而 mini 只有 56.6%，表現(xiàn)還不如 llama。

當(dāng)然加入了混淆之后，mini 相比于 llama 也顯示出了一些優(yōu)勢(shì) ——

在零樣本配置下，preview 版的準(zhǔn)確率超過了一半，比 llama 的 4.3% 高出了 11 倍多；mini 版也達(dá)到了 19.1%，比 llama 高 3.4 倍。

最后在全隨機(jī)版本下，o1-preview 還能擁有 37.3% 的準(zhǔn)確率。

o1 規(guī)劃能力首測(cè)：已超越語言模型范疇，preview 終于贏 mini 一回

以上結(jié)果顯示出了 o1 系列模型，特別是 o1-preview 的超強(qiáng)規(guī)劃能力，但是不足之處也十分明顯。

一是隨著規(guī)劃長度的增加，模型的性能也會(huì)迅速下降，即使對(duì)于未混淆的 Blockworlds 來說也同樣如此。

o1 規(guī)劃能力首測(cè)：已超越語言模型范疇，preview 終于贏 mini 一回

另外，Blockworlds 系列問題并非全部可解，作者發(fā)現(xiàn) o1 在識(shí)別不可解問題上的準(zhǔn)確率依然存在不足。

對(duì)于未混淆版本準(zhǔn)確率只有 27%，但沒有誤判為不可解的情況；對(duì)于全隨機(jī)版本則只有 16%，另外還有 11.5% 的概率將可解問題誤判為不可解。

o1 規(guī)劃能力首測(cè)：已超越語言模型范疇，preview 終于贏 mini 一回

甚至作者還發(fā)現(xiàn)，o1 有時(shí)也會(huì)狡辯，提出令人信服的合理理由，讓人們相信其錯(cuò)誤答案。

o1 規(guī)劃能力首測(cè)：已超越語言模型范疇，preview 終于贏 mini 一回

在模型本身的性能之外，成本和時(shí)間消耗也是一個(gè)重要考量，相比于傳統(tǒng)大模型，o1-mini 的成本相比 GPT4-Turbo 直接翻番，preview 更是高出了數(shù)量級(jí)。

o1 規(guī)劃能力首測(cè)：已超越語言模型范疇，preview 終于贏 mini 一回

那么，如果你是開發(fā)者，會(huì)愿意為了 o1 的高性能付出更多的成本嗎？歡迎評(píng)論區(qū)交流。

論文地址：

https://arxiv.org/abs/2409.13373

參考鏈接：

https://x.com/rao2z/status/1838245261950509170

本文來自微信公眾號(hào)：量子位（ID：QbitAI），作者：克小西

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

o1 規(guī)劃能力首測(cè)：已超越語言模型范疇，preview 終于贏 mini 一回

用“搭積木”測(cè)試大模型

o1-preview 超強(qiáng)規(guī)劃

相關(guān)文章

o1 規(guī)劃能力首測(cè)：已超越語言模型范疇，preview 終于贏 mini 一回