設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

AI“短板”暴露:研究發(fā)現(xiàn) GPT-4 Turbo 回答高級歷史題準(zhǔn)確率僅 46%

2025/1/20 16:24:35 來源:IT之家 作者:遠洋 責(zé)編:遠洋

IT之家 1 月 20 日消息,盡管人工智能(AI)在編碼等任務(wù)中表現(xiàn)出色,但一項最新研究發(fā)現(xiàn),AI 在應(yīng)對高級歷史考試時仍顯得力不從心。

這項研究由奧地利復(fù)雜科學(xué)研究所(CSH)的團隊主導(dǎo),旨在測試三大頂尖大型語言模型(LLMs)——OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini—— 在歷史問題上的表現(xiàn)。研究團隊開發(fā)了一個名為“Hist-LLM”的基準(zhǔn)測試工具,其根據(jù) Seshat 全球歷史數(shù)據(jù)庫來測試答案的正確性,Seshat 全球歷史數(shù)據(jù)庫是一個以古埃及智慧女神命名的龐大歷史知識數(shù)據(jù)庫。

研究結(jié)果于上月在知名 AI 會議 NeurIPS 上公布,結(jié)果顯示,即使是表現(xiàn)最佳的 GPT-4 Turbo 模型,其準(zhǔn)確率也僅為 46%,并不比隨機猜測高多少。

論文合著者、倫敦大學(xué)學(xué)院計算機科學(xué)副教授 Maria del Rio-Chanona 表示:“這項研究的主要結(jié)論是,盡管 LLMs 令人印象深刻,但它們?nèi)匀狈Ω呒墯v史知識的深度理解。它們擅長處理基本事實,但在面對更復(fù)雜、博士級別的歷史研究時,仍無法勝任?!?/p>

IT之家注意到,研究人員分享了一些 LLMs 答錯的歷史問題示例。例如,當(dāng)被問及古埃及某一特定時期是否存在鱗甲時,GPT-4 Turbo 給出了肯定的回答,但實際上,這種技術(shù)是在 1500 年后才出現(xiàn)在埃及的。del Rio-Chanona 解釋說,LLMs 在處理技術(shù)性歷史問題時表現(xiàn)不佳,可能是因為它們傾向于從非常突出的歷史數(shù)據(jù)中推斷,而難以檢索到更冷門的歷史知識。

另一個例子是,研究人員詢問 GPT-4 古埃及在某一歷史時期是否擁有職業(yè)常備軍。正確答案是否定的,但 LLM 卻錯誤地回答“有”。del Rio-Chanona 認為,這可能是因為關(guān)于其他古代帝國(如波斯)擁有常備軍的公開信息較多,而古埃及的相關(guān)信息較少。“如果你被反復(fù)告知 A 和 B,而 C 只被提到一次,當(dāng)你被問及 C 時,你可能會只記得 A 和 B,并試圖從中推斷?!彼忉尩馈?/p>

研究還發(fā)現(xiàn),OpenAI 和 Llama 模型在撒哈拉以南非洲等地區(qū)的表現(xiàn)更差,這表明其訓(xùn)練數(shù)據(jù)可能存在偏見。研究負責(zé)人、CSH 研究員 Peter Turchin 表示,這些結(jié)果表明,在某些領(lǐng)域,LLMs 仍無法替代人類。

盡管如此,研究人員對 LLMs 在未來輔助歷史研究的前景仍持樂觀態(tài)度。他們正在通過納入更多來自代表性不足地區(qū)的數(shù)據(jù)和增加更復(fù)雜的問題來改進基準(zhǔn)測試工具。論文總結(jié)道:“總體而言,盡管我們的結(jié)果突顯了 LLMs 需要改進的領(lǐng)域,但它們也強調(diào)了這些模型在歷史研究中的潛力。”

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:人工智能AI,GPT4 Turbo

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知