IT之家 6 月 22 日消息,斯坦福大學(xué)基礎(chǔ)模型研究中心(CRFM)6 月 11 日發(fā)布了大規(guī)模多任務(wù)語言理解能力評(píng)估(Massive Multitask Language Understanding on HELM)排行榜,其中綜合排名前十的大語言模型中有兩款來自中國廠商,分別是阿里巴巴的 Qwen2 Instruct(72B)和零一萬物的 Yi Large(Preview)。
據(jù)悉大規(guī)模多任務(wù)語言理解能力評(píng)估(MMLU on HELM)采用了 Dan Hendrycks 等人提出的一種測試方法,用于衡量文本模型在多任務(wù)學(xué)習(xí)中的準(zhǔn)確性。這個(gè)測試內(nèi)容包括基礎(chǔ)數(shù)學(xué)、美國歷史、計(jì)算機(jī)科學(xué)、法律等領(lǐng)域的 57 個(gè)任務(wù)。要在這個(gè)測試中獲得高分,模型必須具備廣泛的世界知識(shí)和解決問題的能力。IT之家附排名如下:
1、Claude 3 Opus(20240229): Anthropic(美國,亞馬遜投資)
2、GPT-4o(2024-05-13):OpenAI(美國)
3、Gemini 1.5 Pro:谷歌(美國)
4、GPT-4(0613):OpenAI(美國)
5、Qwen2 Instruct(72B):阿里巴巴(中國)
6、GPT-4 Turbo(2024-04-09):OpenAI(美國)
7、Gemini 1.5 Pro(0409 preview):谷歌(美國)
8、GPT-4 Turbo(1106 preview):OpenAI(美國)
9、Llama 3(70B):Meta(美國)
10、Yi Large(Preview):零一萬物(中國)
Qwen2 是由阿里巴巴開發(fā)的一款開源大語言模型,發(fā)布于今年 6 月 6 日。Qwen2 系列包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B 在內(nèi)的五個(gè)不同規(guī)模的預(yù)訓(xùn)練及指令微調(diào)模型;支持除英語和中文外的額外 27 種語言的數(shù)據(jù)訓(xùn)練;Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 支持長 128K 個(gè) token 的上下文。
Yi Large 是由零一萬物公司開發(fā)的一款閉源大模型,Yi 模型系列基于 6B 和 34B 預(yù)訓(xùn)練語言模型,然后擴(kuò)展到聊天模型、200K 長上下文模型、深度升級(jí)模型和視覺語言模型。官方宣稱“其在關(guān)鍵基準(zhǔn)測試分?jǐn)?shù)上優(yōu)于 GPT-4 和 Claude 3 Opus 等領(lǐng)先模型”。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。