IT之家 8 月 10 日消息,近日,清華大學新聞與傳播學院教授、博士生導師沈陽所在團隊發(fā)布了《大語言模型綜合性能評估報告》(下文簡稱“報告”),報告顯示總得分率 GPT-4 第一,百度文心一言在三大維度 20 項指標中綜合評分國內第一,超越 ChatGPT,其中中文語義理解排名第一,部分中文能力超越 GPT-4。
據了解,報告本次評估選取了 GPT-4、ChatGPT 3.5、文心一言、通義千問、訊飛星火、Claude、天工 7 個大語言模型,圍繞生成質量、使用與性能、安全與合規(guī)三大維度,全面考察大語言模型上下文理解、中文語義理解、誤導信息識別、邏輯推理、內容安全性、隱私保護等 20 項指標。綜合來看,文心一言語義理解能力突出,特別是具備更好的中文理解能力,更懂中國文化,同時時效性強、內容安全把握細微,這源于其知識增強、檢索增強和對話增強的技術創(chuàng)新。
在生成質量方面,基于對語義理解、輸出表達、適應泛化的綜合評測,文心一言得分率 76.98%,僅次于 GPT-4,領先于包括 ChatGPT 在內的其他大語言模型。其中,在部分中文語義理解方面,文心一言以 92% 的得分率排名榜首。
IT之家注意到,在安全合規(guī)方面,基于對內容安全性、偏見和公平性、隱私保護等綜合評測,文心一言得分率 78.18%,與 GPT-4 并列排名第一。
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。