設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

Meta 大模型成了“科學(xué)造假發(fā)動(dòng)機(jī)”,發(fā)布 3 天就在爭(zhēng)議中下架

量子位 2022/11/18 20:08:02 責(zé)編:遠(yuǎn)生

Meta 最新大模型差點(diǎn)成了“科研造假發(fā)動(dòng)機(jī)”,剛出 3 天就在爭(zhēng)議中下架。

1200 億參數(shù)語言模型 Galactica,在 4800 萬篇學(xué)術(shù)論文和各式教科書、百科等數(shù)據(jù)上訓(xùn)練而來。

(與太空堡壘卡拉狄加同名)

其本意是想解決學(xué)術(shù)界信息過載,幫助研究人員做信息梳理、知識(shí)推理和寫作輔助,一度被認(rèn)為是“科研者的福音”,或者“寫論文的 Copilot”。

But,一經(jīng)開放使用,很快就被網(wǎng)友們發(fā)現(xiàn)了大問題。

它確實(shí)能為自己生成的內(nèi)容引用文獻(xiàn),但有時(shí)這個(gè)文獻(xiàn)并不存在,作者卻是真實(shí)存在的人。

它能生成看起來像模像樣的科普文字,但內(nèi)容卻是完全錯(cuò)誤的。

真空中的光速和聲速接近可還行?

著名的 Gary?AI 悲觀主義者?Marcus 也來吐槽,Galactica 把他的出生日期、教育經(jīng)歷和研究領(lǐng)域等信息全搞錯(cuò)了。

對(duì)以上種種問題,馬克斯普朗克智能系統(tǒng)研究所所長(zhǎng) Michael Black 總結(jié)道:

這將開啟一個(gè)科學(xué)深度造假(deep scientific fakes)的時(shí)代。

會(huì)出現(xiàn)研究者從未寫過的虛假論文,這些論文隨后會(huì)被其他真實(shí)的論文引用,簡(jiǎn)直亂套了。

雖然他也注意到,Galactica 的開發(fā)者在每個(gè)輸出內(nèi)容后都加了“內(nèi)容可能不可靠”的警告,但“潘多拉的魔盒一旦開啟,就關(guān)不上了”。

事實(shí)上他的擔(dān)憂不無道理,AI 生成內(nèi)容的速度要比人類快的多,一旦大量被搜索引擎抓取就有可能出現(xiàn)在前排,甚至被當(dāng)成正確答案展示在最上面,誤導(dǎo)更多人。

這樣的爭(zhēng)議持續(xù)了兩三天,團(tuán)隊(duì)只好無奈宣布 Demo 暫時(shí)下架,論文和源代碼繼續(xù)開放給相關(guān)領(lǐng)域研究者。

作為 Meta 首席科學(xué)家,LeCun 對(duì)這個(gè)局面并不滿意。

與他觀點(diǎn)一致的網(wǎng)友認(rèn)為,Galactica 是有幫助且有趣的,只是被個(gè)別人濫用了。

本意是好的

Galactica 由 Meta AI 與 Papers with Code 合作開發(fā)。

在論文引言部分,團(tuán)隊(duì)寫到:

2022 年 5 月,arXiv 上每天平均新增 516 篇論文…… 科學(xué)數(shù)據(jù)的增長(zhǎng)速度更是比人們的處理能力快…… 一個(gè)人已經(jīng)不可能讀完特定研究領(lǐng)域的論文。

搜索引擎不直接組織信息,維基百科這樣的形式需要人力來維護(hù),研究人員持續(xù)為信息過載感到不知所措。

因此他們提出,語言大模型可以更好的存儲(chǔ)、組合和推理科學(xué)知識(shí),并提出一個(gè)終極愿景:

神經(jīng)網(wǎng)絡(luò)將成為科學(xué)研究的下一代人機(jī)界面,就從這篇論文開始。

本意是好的,而且 Galactica 的表現(xiàn)也確實(shí)不錯(cuò)。

除了文本、數(shù)學(xué)公式、代碼任務(wù)之外,它還可以執(zhí)行化學(xué)式、蛋白質(zhì)序列等多模態(tài)任務(wù)。

Galactica 1200 億參數(shù)版本在許多科學(xué)類任務(wù)上性能超越 OpenAI 的 GPT-3、DeepMin 的 Chinchilla 與 Gopher、以及開源的 BLOOM。

然鵝,測(cè)試基準(zhǔn)畢竟是死的,一旦進(jìn)入生產(chǎn)環(huán)境開放給用戶,還是會(huì)出現(xiàn)開發(fā)時(shí)預(yù)料不到的情況。

問題出在哪?

在 Hacker News 上有人認(rèn)為,語言模型終究是在“對(duì)語言建?!倍皇菍?duì)內(nèi)容。

就像 AI 繪畫模型一樣,你讓它畫“騎馬的宇航員”它就能畫出來,雖然這不太可能發(fā)生,但是很有趣。

類似的討論也發(fā)生在 Twitter 上。如果你讓 AI 生成一篇關(guān)于“生活在太空的熊”的維基頁(yè)面,AI 也會(huì)試著生成。

有人認(rèn)為,不,AI 需要判斷出這個(gè)要求不合理。

關(guān)鍵就在于,人們對(duì)圖片和文字的要求是不一樣的。

圖片中的內(nèi)容不合理,人們只會(huì)覺得有趣而接受。而文字的內(nèi)容錯(cuò)了,那就不可接受。

LeCun 則認(rèn)為這種工具的用法應(yīng)該是輔助駕駛,它不會(huì)幫你寫好論文,只是幫你在過程中減輕認(rèn)知負(fù)擔(dān)。

以谷歌為代表的 AI 大廠,近年來對(duì)大模型特別是生成式模型的發(fā)布非常謹(jǐn)慎,像是對(duì)話模型 LaMDA 和 AI 繪畫 Imagen 等都不開源、不給 Demo 或只給限定場(chǎng)景下的 Demo。

另一方面,以 Stable Diffusion 為代表開源項(xiàng)目推動(dòng)了整個(gè)領(lǐng)域的技術(shù)進(jìn)步與應(yīng)用普及,但也在版權(quán)和生成有害內(nèi)容方面引發(fā)一些問題。

你更支持哪種做法?或者還有第三條路么?

Galactica:

https://galactica.org/

參考鏈接:

  • [1]https://news.ycombinator.com/item?id=33611265

  • [2]https://twitter.com/Michael_J_Black/status/1593133746282106887

  • [3]https://twitter.com/paperswithcode/status/1592546933679476736

本文來自微信公眾號(hào):量子位 (ID:QbitAI),作者:夢(mèng)晨

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:Meta

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知