“代碼拖更”的經(jīng)歷,不知你遇到過沒?
就是你看上了一篇論文或者項(xiàng)目,作者聲稱代碼會(huì)開源或者已開源,但你左等右等,每天查查 GitHub,代碼就是一直沒發(fā)布……
reddit 上一位網(wǎng)友就遭遇了這種經(jīng)歷,還是在他三番五次聯(lián)系原作者的情況下。
一怒之下,他就把作者和論文掛網(wǎng)上了。
結(jié)果這一現(xiàn)象引起了網(wǎng)友們熱烈的討論,還把“涉事”作者給“炸”出來了!
聲稱代碼開源卻遲遲不更新
據(jù)發(fā)帖網(wǎng)友陳述,“涉事”論文是 NeurIPS 2020 的一篇有關(guān)自動(dòng)駕駛的論文。
當(dāng)時(shí)他覺得很有意思,順著文中給出的代碼地址點(diǎn)進(jìn)去,發(fā)現(xiàn)倉庫居然是個(gè)“空殼子”。
“好吧,應(yīng)該是還沒來得及更新”,他心想:那就 fork 一下,過幾天再來看。
然而他等啊等啊,代碼一直都沒有發(fā)布。
他看到有其他人也在評(píng)論區(qū)“催更”,他自己也嘗試電郵聯(lián)系作者們(包括學(xué)生和 PI),但都沒收到回復(fù)。
終于,去年 11 月份就提交到 arXiv 的論文,在今年 4 月更新代碼倉庫了!
—— 但,更新的只是自述文件,只說代碼即將發(fā)布。
然后幾個(gè)月過去了,那已成了該倉庫最后一次更新。
而這位網(wǎng)友也終于聯(lián)系上了作者,卻得到了這樣的回應(yīng):
論文實(shí)際上是基于經(jīng)驗(yàn)的改進(jìn),沒有有效代碼來復(fù)現(xiàn)結(jié)果。
這下這位網(wǎng)友可是真的炸了:“我等了你們這么久,付出了巨大的努力聯(lián)系你們。不發(fā)布就不發(fā)布,一開始就別承諾啊,也更不該‘玩失蹤’啊。”
他表示,他知道這種“聲稱開源卻實(shí)際并未發(fā)布代碼”的事情在機(jī)器學(xué)習(xí)論文中越來越多。
當(dāng)他實(shí)驗(yàn)室的本科生問他“為什么我應(yīng)該如此費(fèi)力地整理代碼并發(fā)布,而別的人早已開展下一個(gè)有趣的項(xiàng)目去了”時(shí),他也沒法兒解釋。
但事情不應(yīng)該是這樣:
我強(qiáng)烈地認(rèn)為這種事情必須被改變,而且只有我們說出來,這種現(xiàn)象才能被改變。
于是,也就有了前文我們看到的這篇論文被掛在網(wǎng)上“社死”的事情。
誰之過?應(yīng)該怎么辦?
看到這個(gè)帖子,許多網(wǎng)友的第一反應(yīng)確實(shí)是:這不新鮮啊。
“CVPR 2019 都還有篇論文的代碼現(xiàn)在還沒發(fā)布。原作者還親口告訴我有代碼且已上線呢……”
不過,這不排除有人是在論文被接收后又偷偷刪除鏈接的……
畢竟,有網(wǎng)友指出,有人不發(fā)就是因?yàn)閾?dān)心自己“透露”的太多,被別人反超成果……
emmmm……
當(dāng)然,更普遍的也可能是自己的代碼遇到問題了,不過:
Paper + Bad Code >>>> Paper + No Code
許多人表示,論文能公開代碼還是要公開,即使有錯(cuò)誤、別人跑不起來,但也盡量發(fā)出來,大家還可以做逆向工程 —— 畢竟總比啥都沒有強(qiáng)。
而關(guān)于不發(fā)布代碼的原因,這里面還出現(xiàn)了“對(duì)于你來說開源代碼可能就是 30 分鐘的事兒,但有人真的很忙需要耗費(fèi)數(shù)周才能完成,所以你不該責(zé)怪他們”的論調(diào),但顯然他沒有抓住本次事件真正的問題所在:
不能開源代碼的情況會(huì)有,可以原諒,但你不應(yīng)該把“代碼已在 X 發(fā)布”寫在論文中。不誠實(shí)才是最大的問題。
而另一邊,網(wǎng)友也把矛頭指向了評(píng)審。
“我已經(jīng)說過很多次了,會(huì)議/期刊/審稿人應(yīng)該確保論文中提到的代碼是真正發(fā)布了的?!?/p>
許多人一致認(rèn)為先不提有沒有驗(yàn)證代碼是否能復(fù)現(xiàn),沒有復(fù)現(xiàn)代碼能過審就讓人費(fèi)解,所以給復(fù)現(xiàn)代碼掛了個(gè)空倉庫的論文一開始就應(yīng)該被拒稿,審稿人應(yīng)該好好把關(guān)。
不過說是這么說,有人算了算:
ICLR 今年收到了大約 3400 篇提交,每篇論文應(yīng)該有 4 條評(píng)論,所以總共需要 13000 + 條評(píng)論。而一個(gè)好的評(píng)審總共需要 4-5 個(gè)小時(shí)在一篇論文上。
這需要耗費(fèi)的時(shí)間不敢想象,但審稿又是“義務(wù)勞動(dòng)”,你“審的好”不會(huì)給你帶來什么附加收益,對(duì)你找工作、升職加薪什么的也不會(huì)有幫助,所以……
那你可能會(huì)說,付費(fèi)評(píng)審吧。
且不提每小時(shí)約 100 美元的市場(chǎng)價(jià)格帶來高得離譜的成本,有的人給錢他都不一定有那么多時(shí)間呢。
再扯遠(yuǎn)點(diǎn),最不缺的不是審稿人,而是真正有水平的審稿人。
所以也就發(fā)生了太多空代碼論文“鉆空子”的情況。
“涉事”論文作者被“炸”出來了
令人沒想到的是,原帖網(wǎng)友私下三番五次聯(lián)系不上“涉事”論文作者,發(fā)了這個(gè)帖子后,倒是一下子把他“炸”出來了。
他首先道歉,表示自己剛剛進(jìn)入一家公司工作很忙,沒有及時(shí)跟蹤到這篇論文的郵件。
并承諾在最近的 NeurIPS 之前會(huì)發(fā)布代碼,到時(shí)大家有啥問題就可以問他了。
還給出了代碼用到的數(shù)據(jù)集來自哪篇論文以及根代碼庫的鏈接。
以上,你怎么看?
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。