IT之家 1 月 20 日消息,科技媒體 TechCrunch 昨日(1 月 19 日)發(fā)布博文,報道稱 Epoch AI 因未及時披露 OpenAI 的資助而引發(fā)爭議,其開發(fā)的數(shù)學(xué)基準測試 FrontierMath 的客觀性受到質(zhì)疑。
IT之家簡要介紹下 Epoch AI 組織,是主要由 Open Philanthropy 資助的非營利組織。該組織推出了 FrontierMath 基準測試,通過整合專家級數(shù)學(xué)問題,衡量和測試 AI 模型的數(shù)學(xué)能力。
OpenAI 的 o3 模型在 EpochAI 的 FrontierMath 基準測試中,以碾壓式優(yōu)勢傲視其它模型,準確率高達 25%,而其他模型得分在 2% 左右。
Epoch AI 的一位承包商“Meemi”在 LessWrong 論壇上發(fā)帖稱,許多 FrontierMath 的貢獻者直到公開宣布時才知道 OpenAI 參與了該基準搭建。
Meemi 寫道:“溝通完全不透明。我認為 Epoch AI 應(yīng)該披露 OpenAI 的資助,承包商在選擇是否參與基準測試工作時,應(yīng)該獲得關(guān)于其工作成果可能被用于能力提升的透明信息。”
六位參與 FrontierMath 基準測試設(shè)計的數(shù)學(xué)家表示,他們并不知道 OpenAI 擁有獨家訪問權(quán)限。如果事先知道,他們可能不會參與。
一些社交媒體用戶擔(dān)心,這種保密行為可能會損害 FrontierMath 作為客觀基準的聲譽。除了資助 FrontierMath 之外,OpenAI 還可以訪問該基準測試中的許多問題和解決方案 ——Epoch AI 在 12 月 20 日 o3 發(fā)布之前并未透露這一事實。
Epoch AI 副主任兼聯(lián)合創(chuàng)始人之一 Tamay Besiroglu 在回復(fù) Meemi 的帖子時堅稱,F(xiàn)rontierMath 的完整性沒有受到損害,但也承認 Epoch AI 在未能更加透明方面“犯了一個錯誤”。
AI 專家 Gary Marcus 質(zhì)疑 OpenAI 的聲明,將此事件與 Theranos 丑聞相提并論。IT之家注:該丑聞是由伊麗莎白?霍爾姆斯創(chuàng)立的血液檢測公司 Theranos 的欺詐事件,該公司聲稱其技術(shù)只需幾滴血就能進行數(shù)百項檢測,但最后謊言被揭穿,公司最終倒閉,霍爾姆斯也被判犯有欺詐罪。
Besiroglu 承認 OpenAI 可以訪問 FrontierMath 的大部分問題和答案,但有一個“OpenAI 未見過的保留數(shù)據(jù)集”用于驗證模型的能力。
Besiroglu 寫道
我們被限制在 o3 發(fā)布前后才能披露合作關(guān)系,事后看來,我們應(yīng)該更努力地爭取盡快對基準測試貢獻者保持透明。我們的數(shù)學(xué)家應(yīng)該知道誰可以訪問他們的工作。即使我們在合同上受到限制,我們也應(yīng)該讓與貢獻者的透明度成為我們與 OpenAI 協(xié)議中不可協(xié)商的一部分。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。