首頁

設(shè)置

日夜間

隨系統(tǒng)

淺色

深色
主題色
黑色

訂閱

軟媒應(yīng)用

App客戶端
要知App
軟媒魔方

中国联通上线 iPhone eSIM 网站华为 2024 年净利润 626 亿元

首頁 > 智能時(shí)代>人工智能

Reflection 70B AI 模型“塌房”：第三方基準(zhǔn)測試結(jié)果不佳，不如 LLaMA-3.1-70B

2024/9/11 11:53:56 來源：IT之家作者：故淵責(zé)編：故淵

評論：

IT之家 9 月 11 日消息，科技媒體 The Decoder 昨日（9 月 10 日）報(bào)道，對比平臺 Artificial Analysis 相關(guān)數(shù)據(jù)表明，Reflection 70B AI 模型在基準(zhǔn)測試中的表現(xiàn)，實(shí)際上不及 Meta 的 LLaMA-3.1-70B。

Reflection 70B AI 模型“塌房”：第三方基準(zhǔn)測試結(jié)果不佳，不如 LLaMA-3.1-70B

針對 AI 模型基準(zhǔn)測試結(jié)果不佳，Reflection 公司首席執(zhí)行官馬特?舒默（Matt Shumer）表示，上傳模型權(quán)重至 Hugging Face 時(shí)遇到問題，所使用的權(quán)重是多個(gè)不同模型的混合體，而他們內(nèi)部托管的模型則顯示出更佳的結(jié)果。

舒默隨后向部分用戶提供了獨(dú)家訪問內(nèi)部模型的權(quán)限，Artificial Analysis 重做了測試，并報(bào)告結(jié)果優(yōu)于公開 API，只是他們無法確認(rèn)所訪問的具體是哪個(gè)模型。

Reflection 70B AI 模型“塌房”：第三方基準(zhǔn)測試結(jié)果不佳，不如 LLaMA-3.1-70B

Reflection 在 Hugging Face 已上傳了新的模型，不過這些模型在測試中的表現(xiàn)明顯遜于之前通過私有 API 提供的模型。

IT之家查詢公開資料，有用戶還發(fā)現(xiàn)了證據(jù)，表明 Reflection API 有時(shí)會調(diào)用 Anthropic Claude 3.5 Sonnet 以及 OpenAI。

Reflection 70B AI 模型“塌房”：第三方基準(zhǔn)測試結(jié)果不佳，不如 LLaMA-3.1-70B

舒默旗下公司 OthersideAI 此前已宣布計(jì)劃于本周發(fā)布一款基于 LLaMA 3.1 450B 的更大、更強(qiáng)大的模型。

舒默對這一即將發(fā)布的版本做出了大膽聲明，稱其不僅將成為最佳的開源模型，還將是有史以來最優(yōu)秀的語言模型。

官方回應(yīng)：

Reflection 70B AI 模型“塌房”：第三方基準(zhǔn)測試結(jié)果不佳，不如 LLaMA-3.1-70B

Reflection 70B AI 模型“塌房”：第三方基準(zhǔn)測試結(jié)果不佳，不如 LLaMA-3.1-70B

相關(guān)閱讀：

《開源大模型新王 Reflection 70B 超越 GPT-4o：新技術(shù)可糾正自己幻覺，數(shù)學(xué) 99.2 分刷爆測試集》

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

相關(guān)文章

關(guān)鍵詞：Reflection，AI

日榜
周榜
月榜

軟媒旗下網(wǎng)站： IT之家最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件： 軟媒手機(jī)APP應(yīng)用魔方最會買要知