斯坦福大模型評測榜 Claude 3 排名第一，阿里 Qwen2、零一萬物 Yi Large 國產(chǎn)模型進(jìn)入前十

2024/6/22 20:17:14 來源：IT之家作者：滿河（實習(xí)） 責(zé)編：汪淼

評論：

IT之家 6 月 22 日消息，斯坦福大學(xué)基礎(chǔ)模型研究中心（CRFM）6 月 11 日發(fā)布了大規(guī)模多任務(wù)語言理解能力評估（Massive Multitask Language Understanding on HELM）排行榜，其中綜合排名前十的大語言模型中有兩款來自中國廠商，分別是阿里巴巴的 Qwen2 Instruct（72B）和零一萬物的 Yi Large（Preview）。

據(jù)悉大規(guī)模多任務(wù)語言理解能力評估（MMLU on HELM）采用了 Dan Hendrycks 等人提出的一種測試方法，用于衡量文本模型在多任務(wù)學(xué)習(xí)中的準(zhǔn)確性。這個測試內(nèi)容包括基礎(chǔ)數(shù)學(xué)、美國歷史、計算機(jī)科學(xué)、法律等領(lǐng)域的 57 個任務(wù)。要在這個測試中獲得高分，模型必須具備廣泛的世界知識和解決問題的能力。IT之家附排名如下：

▲ 圖源斯坦福大學(xué)基礎(chǔ)模型研究中心官網(wǎng)

1、Claude 3 Opus（20240229）： Anthropic（美國，亞馬遜投資）
2、GPT-4o（2024-05-13）：OpenAI（美國）
3、Gemini 1.5 Pro：谷歌（美國）
4、GPT-4（0613）：OpenAI（美國）
5、Qwen2 Instruct（72B）：阿里巴巴（中國）
6、GPT-4 Turbo（2024-04-09）：OpenAI（美國）
7、Gemini 1.5 Pro（0409 preview）：谷歌（美國）
8、GPT-4 Turbo（1106 preview）：OpenAI（美國）
9、Llama 3（70B）：Meta（美國）
10、Yi Large（Preview）：零一萬物（中國）

Qwen2 是由阿里巴巴開發(fā)的一款開源大語言模型，發(fā)布于今年 6 月 6 日。Qwen2 系列包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B 在內(nèi)的五個不同規(guī)模的預(yù)訓(xùn)練及指令微調(diào)模型；支持除英語和中文外的額外 27 種語言的數(shù)據(jù)訓(xùn)練；Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 支持長 128K 個 token 的上下文。

Yi Large 是由零一萬物公司開發(fā)的一款閉源大模型，Yi 模型系列基于 6B 和 34B 預(yù)訓(xùn)練語言模型，然后擴(kuò)展到聊天模型、200K 長上下文模型、深度升級模型和視覺語言模型。官方宣稱“其在關(guān)鍵基準(zhǔn)測試分?jǐn)?shù)上優(yōu)于 GPT-4 和 Claude 3 Opus 等領(lǐng)先模型”。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

斯坦福大模型評測榜 Claude 3 排名第一，阿里 Qwen2、零一萬物 Yi Large 國產(chǎn)模型進(jìn)入前十

相關(guān)文章

斯坦福大模型評測榜 Claude 3 排名第一，阿里 Qwen2、零一萬物 Yi Large 國產(chǎn)模型進(jìn)入前十