設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

清華大學(xué)發(fā)布《大語言模型綜合性能評(píng)估報(bào)告》 :GPT-4 第一,文心一言更懂中文

2023/8/10 10:45:21 來源:IT之家 作者:遠(yuǎn)洋 責(zé)編:遠(yuǎn)洋

IT之家 8 月 10 日消息,近日,清華大學(xué)新聞與傳播學(xué)院教授、博士生導(dǎo)師沈陽所在團(tuán)隊(duì)發(fā)布了《大語言模型綜合性能評(píng)估報(bào)告》(下文簡(jiǎn)稱“報(bào)告”),報(bào)告顯示總得分率 GPT-4 第一,百度文心一言在三大維度 20 項(xiàng)指標(biāo)中綜合評(píng)分國內(nèi)第一,超越 ChatGPT,其中中文語義理解排名第一,部分中文能力超越 GPT-4。

據(jù)了解,報(bào)告本次評(píng)估選取了 GPT-4、ChatGPT 3.5、文心一言、通義千問、訊飛星火、Claude、天工 7 個(gè)大語言模型,圍繞生成質(zhì)量、使用與性能、安全與合規(guī)三大維度,全面考察大語言模型上下文理解、中文語義理解、誤導(dǎo)信息識(shí)別、邏輯推理、內(nèi)容安全性、隱私保護(hù)等 20 項(xiàng)指標(biāo)。綜合來看,文心一言語義理解能力突出,特別是具備更好的中文理解能力,更懂中國文化,同時(shí)時(shí)效性強(qiáng)、內(nèi)容安全把握細(xì)微,這源于其知識(shí)增強(qiáng)、檢索增強(qiáng)和對(duì)話增強(qiáng)的技術(shù)創(chuàng)新。

在生成質(zhì)量方面,基于對(duì)語義理解、輸出表達(dá)、適應(yīng)泛化的綜合評(píng)測(cè),文心一言得分率 76.98%,僅次于 GPT-4,領(lǐng)先于包括 ChatGPT 在內(nèi)的其他大語言模型。其中,在部分中文語義理解方面,文心一言以 92% 的得分率排名榜首。

IT之家注意到,在安全合規(guī)方面,基于對(duì)內(nèi)容安全性、偏見和公平性、隱私保護(hù)等綜合評(píng)測(cè),文心一言得分率 78.18%,與 GPT-4 并列排名第一。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:GPT4,文心一言,大模型

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知