斯坦福大學(xué)研究發(fā)現(xiàn)，AI 聊天機(jī)器人 ChatGPT 的表現(xiàn)很不穩(wěn)定

2023/9/7 23:14:18 來源：IT之家作者：遠(yuǎn)洋 責(zé)編：遠(yuǎn)洋

評(píng)論：

IT之家 9 月 7 日消息，斯坦福大學(xué)的一項(xiàng)新研究發(fā)現(xiàn)，熱門生成式人工智能（AI）聊天機(jī)器人 ChatGPT 的能力在幾個(gè)月內(nèi)有所波動(dòng)。

斯坦福大學(xué)的團(tuán)隊(duì)評(píng)估了 ChatGPT 在幾個(gè)月內(nèi)如何處理不同的任務(wù)。他們發(fā)現(xiàn)，ChatGPT 的能力隨時(shí)間的推移而出現(xiàn)了不一致。目前，ChatGPT 有兩個(gè)版本 —— 免費(fèi)的 GPT-3.5 模型和更智能、更快速的付費(fèi) GPT-4 版本。研究人員發(fā)現(xiàn)，GPT-4 在 3 月份能夠有效地解決數(shù)學(xué)問題，識(shí)別質(zhì)數(shù)的準(zhǔn)確率為 97.6%。三個(gè)月后，其準(zhǔn)確率下降到了 2.4%。而另一方面，GPT-3.5 卻變得更好，從 7.4% 的準(zhǔn)確率提高到了 86.8%。

研究人員還注意到，在編寫代碼和視覺推理方面也有類似的波動(dòng)。斯坦福大學(xué)計(jì)算機(jī)科學(xué)教授 James Zou 稱：“當(dāng)我們調(diào)整一個(gè)大型語言模型來提高它在某些任務(wù)上的表現(xiàn)時(shí)，那可能會(huì)有很多意想不到的后果，可能會(huì)損害這個(gè)模型在其他任務(wù)上的表現(xiàn)…… 這個(gè)模型回答問題的方式有各種各樣的相互依賴性，這可能導(dǎo)致我們觀察到的一些惡化行為?！?/p>

研究人員認(rèn)為，結(jié)果并不能真正反映 ChatGPT 性能的準(zhǔn)確性狀態(tài)，而是顯示了微調(diào)模型帶來的意外后果。本質(zhì)上，當(dāng)修改模型的一部分來改善一個(gè)任務(wù)時(shí)，其他任務(wù)可能會(huì)受到影響。為什么會(huì)這樣很難確定，因?yàn)闆]有人知道 ChatGPT 是如何運(yùn)作的，而且它的代碼也不是開源的。

隨著時(shí)間的推移，研究人員注意到，ChatGPT 的回答不僅變得不太準(zhǔn)確，而且還停止了解釋其推理過程。

由于 ChatGPT 的運(yùn)作方式，要研究和衡量它的表現(xiàn)可能很困難，這項(xiàng)研究強(qiáng)調(diào)了觀察和評(píng)估驅(qū)動(dòng) ChatGPT 等工具的大型語言模型（LLM）性能變化的必要性。該研究已經(jīng)在 arXiv 上發(fā)布，并正在等待同行評(píng)審，IT之家附鏈接在此。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

斯坦福大學(xué)研究發(fā)現(xiàn)，AI 聊天機(jī)器人 ChatGPT 的表現(xiàn)很不穩(wěn)定

相關(guān)文章