今年 NeurIPS 大會(huì)論文已經(jīng)放榜,終于可以學(xué)習(xí)一下大佬們的研究了。
不過,打開電腦,隨便點(diǎn)開一篇,就是一大段密密麻麻的文字糊臉…… 只是摘要就有這么長(zhǎng),還有 2300 多篇,這工作量實(shí)在勸退。
能不能讓論文們都做一道經(jīng)典的語文題:“用一句話概括全文內(nèi)容”?還真可以。
最近 Reddit 上的一位博主發(fā)布了一篇今年的 NeurIPS 大會(huì)論文匯總,其中的每篇論文下方(紅框中)都有一句由 AI 生成的高度凝練的總結(jié)。
而這款 AI 文本分析軟件,其實(shí)就是東京工業(yè)大學(xué)團(tuán)隊(duì)開發(fā)的 Paper Digest。
它號(hào)稱能幫你把論文閱讀時(shí)間減少到 3 分鐘。
除了總結(jié)論文內(nèi)容以外,它還可以篩選出已經(jīng)發(fā)布代碼的論文。
同樣,這次 NeurIPS 大會(huì)上的 200 多篇已發(fā)布代碼的文章也被匯總了出來(可能會(huì)有疏漏)。
點(diǎn)擊“code”,就可以直接跳轉(zhuǎn)到相應(yīng)的 GitHub 頁面。
AI 如何做好概括題
那這個(gè) AI 文本分析神器應(yīng)該怎么用呢?
很簡(jiǎn)單,先打開 Paper Digest 的官網(wǎng)。完成一些注冊(cè)工作后,滑到一個(gè)搜索框的界面:
在這個(gè)搜索框里填上你要總結(jié)概括的論文的 DOI 號(hào)。
DOI 號(hào)就像論文的身份證號(hào),是獨(dú)一無二的。以隨便打開的一篇論文為例,它長(zhǎng)這樣(紅框中即為 DOI 號(hào)):
填完之后,點(diǎn)擊“Digest”就開始總結(jié)了:
只需幾秒鐘,就會(huì)有一句話的總結(jié)輸出,你也可以選擇一個(gè)最合適反饋給 Paper Digest,幫他們豐富數(shù)據(jù)庫。
除了輸入 DOI 號(hào),如果你有本地的論文 PDF 文件,也可以直接導(dǎo)入。
是不是很方便?其實(shí)這樣方便好用的模型還不止一種。
比如,在一款免費(fèi)學(xué)術(shù)搜索引擎 Semantic Scholar 里,也加入了一個(gè)類似的高度概括 AI:TLDR。
TLDR(Too Long,Don’t Read),其實(shí)就是太長(zhǎng)不看的意思……
在 Semantic Scholar 上搜索論文時(shí),帶有 TLDR(紅框)標(biāo)志的就是 AI 生成的一句話總結(jié)。
具體到方法原理上,我們不妨以 TLDR 為例一起來看看。
舉個(gè)例子,下圖中上邊的格子中是摘要,簡(jiǎn)介,結(jié)論中相對(duì)重要的段落和句子。TLDR 會(huì)標(biāo)記出突出的部分,然后組合成一個(gè)新的句子。
它的訓(xùn)練邏輯也很容易理解。簡(jiǎn)單來說,就是先確定一個(gè)標(biāo)準(zhǔn)答案,然后把標(biāo)準(zhǔn)答案打亂,再讓 TLDR 嘗試復(fù)原。
這和人類提煉概括的過程也很像。概括本身也需要忽視一些干擾,然后提取出最重要的部分。
所以在訓(xùn)練之前要準(zhǔn)備兩個(gè)數(shù)據(jù)庫,也就是標(biāo)準(zhǔn)答案:一個(gè)是 SciTLDR,它包含接近 2000 篇計(jì)算機(jī)科學(xué)相關(guān)論文,每篇論文都有一個(gè)最好的總結(jié)。
另一個(gè)是論文-標(biāo)題對(duì)數(shù)據(jù)庫。由于標(biāo)題中一般有很多重要的語句,對(duì)生成 TLDR 來說很有幫助。
將這兩個(gè)數(shù)據(jù)庫分別加上控制碼“<TITLE>”和“<TLDR>”之后進(jìn)行混合,送入 BART 模型。
最后的 BART 模型是一個(gè)基于 Transformer 的預(yù)訓(xùn)練 sequence-to-sequence 去噪自編碼器,它的訓(xùn)練步驟主要有兩步:
首先用任意噪聲破壞函數(shù)文本,相當(dāng)于把標(biāo)準(zhǔn)答案打亂。然后讓模型學(xué)習(xí)重建原來的文本。這整個(gè)學(xué)習(xí)策略就是 CATTS。
來看看效果如何。
下圖中 TLDR-Auth 是論文作者本人寫的總結(jié),TLDR-PR 是本科學(xué)生讀完論文寫的總結(jié)。
BART 和 CATTS 分別是原有模型和 CATTS 模型給出的總結(jié)。
從重合度看起來效果還是不錯(cuò)的。
相關(guān)推薦還需下功夫
不過,不論是 TLDR 還是 Paper Digest,都有不完善的地方。
TLDR 只針對(duì)計(jì)算機(jī)科學(xué)的論文進(jìn)行了總結(jié)。
而對(duì)于 Paper Digest,網(wǎng)友表示它雖然概括做得很好,但是相關(guān)推薦實(shí)在是不行,今后仍需改進(jìn)。
而且 Paper Digest 并不適用于所有論文。
目前,它只對(duì)來源于開放獲取期刊的論文或者本地 PDF 文件導(dǎo)入的論文有效。
但是不論哪種文本分析 AI,都可以快速獲取論文高度凝練的概括信息。
如果大家想快速了解今年 NeurIPS 大會(huì)的論文情況,可以從文末鏈接中找到這次的匯總。
參考鏈接:
[1]https://www.reddit.com/r/MachineLearning/comments/r0gnej/r_one_sentence_highlight_for_every_neurips2021/
[2]https://aclanthology.org/2020.findings-emnlp.428.pdf
[3]https://www.paperdigest.org/2021/11/neurips-2021-highlights/
[4]https://www.paper-digest.com/
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。