<abbr id="eyge4"><acronym id="eyge4"></acronym></abbr>

<dfn id="eyge4"><code id="eyge4"></code></dfn>

<rt id="eyge4"></rt>

<menu id="eyge4"><acronym id="eyge4"></acronym></menu>

<delect id="eyge4"></delect>

首頁

設(shè)置

日夜間

隨系統(tǒng)

淺色

深色
主題色
黑色

訂閱

軟媒應(yīng)用

App客戶端
要知App
軟媒魔方

首頁 > 智能時代>人工智能

OpenAI 員工公開指責(zé) xAI：Grok 3 基準(zhǔn)測試結(jié)果具有誤導(dǎo)性

2025/2/23 9:24:48 來源：IT之家作者：遠洋責(zé)編：遠洋

評論：

IT之家 2 月 23 日消息，本周，OpenAI 的一名員工公開指責(zé)埃隆?馬斯克旗下的 xAI 公司，稱其發(fā)布的最新 AI 模型 Grok 3 的基準(zhǔn)測試結(jié)果具有誤導(dǎo)性。對此，xAI 的聯(lián)合創(chuàng)始人伊戈爾?巴布什金（Igor Babushkin）則堅稱公司并無不當(dāng)。

OpenAI 員工公開指責(zé) xAI：Grok 3 基準(zhǔn)測試結(jié)果具有誤導(dǎo)性

xAI 在其博客上發(fā)布了一張圖表，展示了 Grok 3 在 AIME 2025（一項近期邀請制數(shù)學(xué)考試中的高難度數(shù)學(xué)題集）上的表現(xiàn)。盡管一些專家質(zhì)疑 AIME 作為 AI 基準(zhǔn)的有效性，但 AIME 2025 及其早期版本仍被廣泛用于評估模型的數(shù)學(xué)能力。

IT之家注意到，xAI 的圖表顯示，Grok 3 的兩個版本 ——Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning—— 在 AIME 2025 上的表現(xiàn)超過了 OpenAI 當(dāng)前最強的可用模型 o3-mini-high。然而，OpenAI 的員工很快在 X 平臺上指出，xAI 的圖表并未包含 o3-mini-high 在“cons@64”條件下的 AIME 2025 得分。

“cons@64”是指“consensus@64”，即允許模型在基準(zhǔn)測試中對每個問題嘗試 64 次，并將出現(xiàn)頻率最高的答案作為最終答案?？上攵?，這種方式往往會顯著提升模型的基準(zhǔn)測試分數(shù)，如果圖表中省略這一數(shù)據(jù)，就可能讓人誤以為某個模型的表現(xiàn)優(yōu)于另一模型，而實際情況未必如此。

在 AIME 2025 的“@1”條件下（即模型首次嘗試的得分），Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 的得分低于 o3-mini-high。Grok 3 Reasoning Beta 的表現(xiàn)也略低于 OpenAI 的 o1 模型在“中等計算”設(shè)置下的得分。然而，xAI 仍在宣傳 Grok 3 為“世界上最聰明的 AI”。

巴布什金在 X 平臺上辯稱，OpenAI 過去也曾發(fā)布過類似的誤導(dǎo)性基準(zhǔn)測試圖表。盡管這些圖表是用于比較其自身模型的表現(xiàn)。

OpenAI 員工公開指責(zé) xAI：Grok 3 基準(zhǔn)測試結(jié)果具有誤導(dǎo)性

在這場爭議中，一位中立的第三方重新繪制了一張更為“準(zhǔn)確”的圖表：

OpenAI 員工公開指責(zé) xAI：Grok 3 基準(zhǔn)測試結(jié)果具有誤導(dǎo)性

但正如 AI 研究員內(nèi)森?蘭伯特（Nathan Lambert）在一篇文章中指出的，或許最重要的指標(biāo)仍然未知：每個模型達到最佳分數(shù)所需的計算（和金錢）成本。這恰恰表明，大多數(shù) AI 基準(zhǔn)測試在傳達模型的局限性和優(yōu)勢方面仍然存在很大的不足。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

相關(guān)文章

關(guān)鍵詞：人工智能，AI，Grok 3

日榜
周榜
月榜

軟媒旗下網(wǎng)站： IT之家最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件： 軟媒手機APP應(yīng)用魔方最會買要知

<tbody id="oeo40"></tbody>