最新中文大模型測評(píng)：百川智能 Baichuan 3 國內(nèi)第一

2024/4/30 19:43:20 來源：IT之家作者：遠(yuǎn)洋 責(zé)編：遠(yuǎn)洋

評(píng)論：

感謝IT之家網(wǎng)友 Louis9998 的線索投遞！

IT之家 4 月 30 日消息，IT之家從百川大模型官方公眾號(hào)獲悉，今日國內(nèi)大模型評(píng)測機(jī)構(gòu) SuperCLUE 發(fā)布了《中文大模型基準(zhǔn)測評(píng) 2024 年度 4 月報(bào)告》，報(bào)告選取國內(nèi)外具有代表性的 32 個(gè)大模型 4 月份的版本，通過多維度綜合性測評(píng)，對(duì)國內(nèi)外大模型發(fā)展現(xiàn)狀進(jìn)行觀察與思考。報(bào)告顯示，百川智能的 Baichuan 3 在國內(nèi)大模型中排名第一，智譜 GLM-4、通義千問 2.1、文心一言 4.0、Moonshot (Kimi) 等大模型位列其后。從全球范圍來看，國外同行的 GPT-4、Claude3 得分更勝一籌。

SuperCLUE 是國內(nèi)通用大模型綜合性測評(píng)基準(zhǔn)，其前身是第三方中文語言理解測評(píng)基準(zhǔn) CLUE（The Chinese Language Understanding Evaluation）。不同于傳統(tǒng)測評(píng)通過選擇題形式的測評(píng)，SuperCLUE 納入了開放主觀問題的測評(píng)。通過多維度多視角多層次的評(píng)測體系以及對(duì)話的形式，模擬大模型應(yīng)用場景，真實(shí)有效的考察模型生成能力。同時(shí)，SuperCLUE 通過構(gòu)建多輪對(duì)話場景，更深層次考察大模型在真實(shí)多輪對(duì)話場景的應(yīng)用效果，對(duì)大模型的上下文、記憶、對(duì)話能力全方位評(píng)測。

據(jù)介紹，SuperCLUE 本次測評(píng)由十大基礎(chǔ)任務(wù)組成，包括邏輯推理、代碼、語言理解、長文本、角色扮演等，題目為多輪開放式簡答題。評(píng)測集共 2194 題。

測試結(jié)果顯示，Baichuan3 的文科、理科能力均衡。在知識(shí)百科能力上 Baichuan 3 以 82 分的成績超越了 GPT-4-Turbo，在所有 32 個(gè)參與評(píng)測的國內(nèi)外大模型中排名第一。而在代表了大模型智力的“邏輯推理”能力上以 68.60 的成績超越 Claude3-Opus，也力壓一眾國內(nèi)大模型拔得頭籌。此外，在計(jì)算、代碼、工具使用能力上 Baichuan 3 表現(xiàn)同樣不俗，均排名國內(nèi)前三。

最新中文大模型測評(píng)：百川智能 Baichuan 3 國內(nèi)第一

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

最新中文大模型測評(píng)：百川智能 Baichuan 3 國內(nèi)第一

相關(guān)文章