LLM 數(shù)學(xué)基準(zhǔn)測(cè)試集 FrontierMath 公布：號(hào)稱多數(shù)題型 AI 沒學(xué)過、業(yè)界模型均敗北

2024/11/15 19:42:46 來源：IT之家作者：漾仔責(zé)編：漾仔

評(píng)論：

IT之家 11 月 15 日消息，研究機(jī)構(gòu) Epoch AI 現(xiàn)公布了一款名為 FrontierMath 的全新 AI 模型數(shù)學(xué)基準(zhǔn)測(cè)試集，旨在評(píng)估系列模型的數(shù)學(xué)推理能力。

與現(xiàn)有諸如 GSM-8K、MATH 等測(cè)試題集不同，F(xiàn)rontierMath 中的數(shù)學(xué)問題號(hào)稱特別復(fù)雜，收錄了現(xiàn)代數(shù)學(xué)中的數(shù)論、代數(shù)和幾何等領(lǐng)域，這些題目的難度據(jù)稱極高，甚至人類專家解答往往需要數(shù)小時(shí)甚至數(shù)天的時(shí)間。

IT之家獲悉，F(xiàn)rontierMath 的題目由人工智能學(xué)方面資深專家設(shè)計(jì)，相應(yīng)問題號(hào)稱不僅要求 AI 理解數(shù)學(xué)概念，還需要具備復(fù)雜情境的推理能力，以避免模型利用以前學(xué)習(xí)過的類似題目進(jìn)行比對(duì)作答。

LLM 數(shù)學(xué)基準(zhǔn)測(cè)試集 FrontierMath 公布：號(hào)稱多數(shù)題型 AI 沒學(xué)過、業(yè)界模型均敗北

▲ 題庫中的題型舉例

研究機(jī)構(gòu)表示，他們利用 FrontierMath 對(duì)當(dāng)前市場(chǎng)上的 AI 模型進(jìn)行初步測(cè)試，發(fā)現(xiàn)這些模型普遍表現(xiàn)不佳，包括此前在 GSM-8K、MATH 上取得近乎滿分成績(jī)的 Claude 3.5 和 GPT-4 等模型在 FrontierMath 中的解題成功率也均敗北（成功率低于 2%）。

LLM 數(shù)學(xué)基準(zhǔn)測(cè)試集 FrontierMath 公布：號(hào)稱多數(shù)題型 AI 沒學(xué)過、業(yè)界模型均敗北

研究團(tuán)隊(duì)指出，AI 在解決高級(jí)數(shù)學(xué)問題時(shí)的主要困難在于這些模型通常依賴于訓(xùn)練數(shù)據(jù)中學(xué)過的類似題目來生成答案，而不是對(duì)問題本身的邏輯結(jié)構(gòu)進(jìn)行真正的理解和推理。這意味著目前業(yè)界大部分 AI 模型只要遇到?jīng)]學(xué)過的題目，就容易出錯(cuò)，而這一原則性的問題難以實(shí)際上無法通過“暴力增加模型規(guī)?！苯鉀Q，需要研發(fā)人員從模型推理架構(gòu)層面進(jìn)行深入改造。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

LLM 數(shù)學(xué)基準(zhǔn)測(cè)試集 FrontierMath 公布：號(hào)稱多數(shù)題型 AI 沒學(xué)過、業(yè)界模型均敗北

相關(guān)文章

LLM 數(shù)學(xué)基準(zhǔn)測(cè)試集 FrontierMath 公布：號(hào)稱多數(shù)題型 AI 沒學(xué)過、業(yè)界模型均敗北