研究發(fā)現(xiàn)：AI 越聰明就越有可能“胡編亂造”

2024/9/29 13:20:36 來源：IT之家作者：遠洋責(zé)編：遠洋

評論：

IT之家 9 月 29 日消息，一項新研究發(fā)現(xiàn)，隨著大型語言模型（LLM）變得越來越強大，它們似乎也越來越容易編造事實，而不是避免或拒絕回答它們無法回答的問題。這表明，這些更聰明的 AI 聊天機器人實際上變得不太可靠。

圖源 Pexels

IT之家注意到，該研究發(fā)表在《自然》雜志上，研究人員研究了一些業(yè)界領(lǐng)先的商業(yè) LLM：OpenAI 的 GPT 和 Meta 的 LLaMA，以及由研究小組 BigScience 創(chuàng)建的開源模型 BLOOM。

研究發(fā)現(xiàn)，雖然這些 LLM 的回答在許多情況下變得更加準(zhǔn)確，但總體上可靠性更差，給出錯誤答案的比例比舊模型更高。

瓦倫西亞人工智能研究所在西班牙的研究員 José Hernández-Orallo 對《自然》雜志表示：“如今，它們幾乎可以回答一切。這意味著更多正確的答案，但也意味著更多錯誤的答案?！?/p>

格拉斯哥大學(xué)的科學(xué)和技術(shù)哲學(xué)家 Mike Hicks 對此進行了更嚴(yán)厲的評價，Hicks（未參與該研究）告訴《自然》雜志：“在我看來，這就像我們所說的胡說八道，它越來越擅長假裝知識淵博?！?/p>

測試中，這些模型被問及了從數(shù)學(xué)到地理等各種主題，并被要求執(zhí)行諸如按指定順序列出信息等任務(wù)。總體而言，更大、更強大的模型給出了最準(zhǔn)確的答案，但在更難的問題上表現(xiàn)不佳，其準(zhǔn)確率較低。

研究人員稱，一些最大的“撒謊者”是 OpenAI 的 GPT-4 和 o1，但所有被研究的 LLM 似乎都呈這種趨勢，對于 LLaMA 系列模型，沒有一個能夠達到 60% 的準(zhǔn)確率，即使是最簡單的問題。

而當(dāng)被要求判斷聊天機器人的回答是準(zhǔn)確還是不準(zhǔn)確時，一小部分參與者有 10% 到 40% 的概率判斷錯誤。

總之研究表明，AI 模型越大（就參數(shù)、訓(xùn)練數(shù)據(jù)和其他因素而言），它們給出錯誤答案的比例就越高。

研究人員稱，解決這些問題最簡單的方法是讓 LLM 不那么急于回答一切。Hernández-Orallo 稱：“可以設(shè)置一個閾值，當(dāng)問題具有挑戰(zhàn)性時，讓聊天機器人說‘不，我不知道’?！钡绻奶鞕C器人被限制為只回答它們知道的東西，可能會暴露技術(shù)的局限性。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

研究發(fā)現(xiàn)：AI 越聰明就越有可能“胡編亂造”

相關(guān)文章