首頁 > 智能時(shí)代>人工智能

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個(gè)遍

量子位 2021/11/26 13:08:58 責(zé)編：江離

評(píng)論：

今年 NeurIPS 大會(huì)論文已經(jīng)放榜，終于可以學(xué)習(xí)一下大佬們的研究了。

不過，打開電腦，隨便點(diǎn)開一篇，就是一大段密密麻麻的文字糊臉…… 只是摘要就有這么長(zhǎng)，還有 2300 多篇，這工作量實(shí)在勸退。

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個(gè)遍

能不能讓論文們都做一道經(jīng)典的語文題：“用一句話概括全文內(nèi)容”？還真可以。

最近 Reddit 上的一位博主發(fā)布了一篇今年的 NeurIPS 大會(huì)論文匯總，其中的每篇論文下方（紅框中）都有一句由 AI 生成的高度凝練的總結(jié)。

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個(gè)遍

而這款 AI 文本分析軟件，其實(shí)就是東京工業(yè)大學(xué)團(tuán)隊(duì)開發(fā)的 Paper Digest。

它號(hào)稱能幫你把論文閱讀時(shí)間減少到 3 分鐘。

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個(gè)遍

除了總結(jié)論文內(nèi)容以外，它還可以篩選出已經(jīng)發(fā)布代碼的論文。

同樣，這次 NeurIPS 大會(huì)上的 200 多篇已發(fā)布代碼的文章也被匯總了出來（可能會(huì)有疏漏）。

點(diǎn)擊“code”，就可以直接跳轉(zhuǎn)到相應(yīng)的 GitHub 頁面。

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個(gè)遍

AI 如何做好概括題

那這個(gè) AI 文本分析神器應(yīng)該怎么用呢？

很簡(jiǎn)單，先打開 Paper Digest 的官網(wǎng)。完成一些注冊(cè)工作后，滑到一個(gè)搜索框的界面：

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個(gè)遍

在這個(gè)搜索框里填上你要總結(jié)概括的論文的 DOI 號(hào)。

DOI 號(hào)就像論文的身份證號(hào)，是獨(dú)一無二的。以隨便打開的一篇論文為例，它長(zhǎng)這樣（紅框中即為 DOI 號(hào)）：

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個(gè)遍

填完之后，點(diǎn)擊“Digest”就開始總結(jié)了：

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個(gè)遍

只需幾秒鐘，就會(huì)有一句話的總結(jié)輸出，你也可以選擇一個(gè)最合適反饋給 Paper Digest，幫他們豐富數(shù)據(jù)庫。

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個(gè)遍

除了輸入 DOI 號(hào)，如果你有本地的論文 PDF 文件，也可以直接導(dǎo)入。

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個(gè)遍

是不是很方便？其實(shí)這樣方便好用的模型還不止一種。

比如，在一款免費(fèi)學(xué)術(shù)搜索引擎 Semantic Scholar 里，也加入了一個(gè)類似的高度概括 AI：TLDR。

TLDR（Too Long，Don’t Read），其實(shí)就是太長(zhǎng)不看的意思……

在 Semantic Scholar 上搜索論文時(shí)，帶有 TLDR（紅框）標(biāo)志的就是 AI 生成的一句話總結(jié)。

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個(gè)遍

具體到方法原理上，我們不妨以 TLDR 為例一起來看看。

舉個(gè)例子，下圖中上邊的格子中是摘要，簡(jiǎn)介，結(jié)論中相對(duì)重要的段落和句子。TLDR 會(huì)標(biāo)記出突出的部分，然后組合成一個(gè)新的句子。

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個(gè)遍

它的訓(xùn)練邏輯也很容易理解。簡(jiǎn)單來說，就是先確定一個(gè)標(biāo)準(zhǔn)答案，然后把標(biāo)準(zhǔn)答案打亂，再讓 TLDR 嘗試復(fù)原。

這和人類提煉概括的過程也很像。概括本身也需要忽視一些干擾，然后提取出最重要的部分。

所以在訓(xùn)練之前要準(zhǔn)備兩個(gè)數(shù)據(jù)庫，也就是標(biāo)準(zhǔn)答案：一個(gè)是 SciTLDR，它包含接近 2000 篇計(jì)算機(jī)科學(xué)相關(guān)論文，每篇論文都有一個(gè)最好的總結(jié)。

另一個(gè)是論文-標(biāo)題對(duì)數(shù)據(jù)庫。由于標(biāo)題中一般有很多重要的語句，對(duì)生成 TLDR 來說很有幫助。

將這兩個(gè)數(shù)據(jù)庫分別加上控制碼“<TITLE>”和“<TLDR>”之后進(jìn)行混合，送入 BART 模型。

最后的 BART 模型是一個(gè)基于 Transformer 的預(yù)訓(xùn)練 sequence-to-sequence 去噪自編碼器，它的訓(xùn)練步驟主要有兩步：

首先用任意噪聲破壞函數(shù)文本，相當(dāng)于把標(biāo)準(zhǔn)答案打亂。然后讓模型學(xué)習(xí)重建原來的文本。這整個(gè)學(xué)習(xí)策略就是 CATTS。

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個(gè)遍

來看看效果如何。

下圖中 TLDR-Auth 是論文作者本人寫的總結(jié)，TLDR-PR 是本科學(xué)生讀完論文寫的總結(jié)。

BART 和 CATTS 分別是原有模型和 CATTS 模型給出的總結(jié)。

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個(gè)遍

從重合度看起來效果還是不錯(cuò)的。

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個(gè)遍

AI 如何做好概括題

相關(guān)推薦還需下功夫

相關(guān)文章