設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

今年高考英語 AI 得分 134,復(fù)旦武大校友這項研究有點意思

量子位 2022/6/25 12:57:08 責(zé)編:長河

在挑戰(zhàn)寫語文作文后,AI 現(xiàn)在又盯上了高考英語。

結(jié)果好家伙,今年高考英語卷(全國甲卷)一上手,就拿了 134 分。

而且不是偶然的超常發(fā)揮。

在 2018-2021 年的 10 套真題測試中,AI 的分?jǐn)?shù)都在 125 分以上,最高紀(jì)錄為 138.5 分,聽力和閱讀理解還拿過滿分。

這就是由 CMU 學(xué)者提出的,高考英語測試 AI 系統(tǒng) Qin。

它的參數(shù)量只有 GPT-3 的 16 分之一,平均成績卻比 GPT-3 高出 15 分。

其背后的秘訣名叫重構(gòu)預(yù)訓(xùn)練 (reStructured Pre-training),是作者提出的一種新學(xué)習(xí)范式。

具體來看,就是把維基百科、YouTube 等平臺的信息重新提取重構(gòu),再喂給 AI 進行訓(xùn)練,由此讓 AI 具有更強的泛化能力。

兩位學(xué)者用足足 100 多頁的論文,深入解釋了這一新范式。

那么,這一范式到底講了什么?

我們來深扒一下~

什么是重構(gòu)預(yù)訓(xùn)練?

論文題目很簡單,就叫 reStructured Pre-training(重構(gòu)預(yù)訓(xùn)練,RST)。

核心觀點凝練來說就是一句話,要重視數(shù)據(jù)?。?/p>

作者認(rèn)為,這個世界上有價值的信息無處不在,而目前的 AI 系統(tǒng)并沒有充分利用數(shù)據(jù)中的信息。

比如像維基百科,Github,里面包含了各種可以供模型學(xué)習(xí)的信號:實體,關(guān)系,文本摘要,文本主題等。這些信號之前由于技術(shù)瓶頸都沒有被考慮。

所以,作者在本文中提出了一種方法,可以用神經(jīng)網(wǎng)絡(luò)統(tǒng)一地存儲和訪問包含各種類型信息的數(shù)據(jù)。

他們以信號為單位、結(jié)構(gòu)化地表示數(shù)據(jù),這很類似于數(shù)據(jù)科學(xué)里我們常常將數(shù)據(jù)構(gòu)造成表或 JSON 格式,然后通過專門的語言(如 SQL)來檢索所需的信息。

具體來看,這里的信號,其實就是指數(shù)據(jù)中的有用信息。

比如在“莫扎特生于薩爾茨堡”這句話中,“莫扎特”、“薩爾茨堡”就是信號

然后,就需要在各種平臺上挖掘數(shù)據(jù)、提取信號,作者把這個過程比作了從礦山里尋寶。

接下來,利用 prompt 方法,就能將這些來自不同地方的信號統(tǒng)一成一種形式。

最后,再將這些重組的數(shù)據(jù)集成并存儲到語言模型中

這樣一來,該研究就能從 10 個數(shù)據(jù)源中,統(tǒng)一 26 種不同類型的信號,讓模型獲得很強的泛化能力。

結(jié)果表明,在多個數(shù)據(jù)集中,RST-T、RST-A 零樣本學(xué)習(xí)的表現(xiàn),都優(yōu)于 GPT-3 的少樣本學(xué)習(xí)性能。

而為了更進一步測試新方法的表現(xiàn),作者還想到了讓 AI 做高考題的方法

他們表示,現(xiàn)在很多工作方法走的都是漢化 GPT-3 的思路,在評估的應(yīng)用場景上也是跟隨 OpenAI、DeepMind。

比如 GLUE 測評基準(zhǔn)、蛋白質(zhì)折疊評分等。

基于對當(dāng)下 AI 模型發(fā)展的觀察,作者認(rèn)為可以開辟出一條新的賽道試試,所以就想到了用高考給 AI 練練手。

他們找來了前后幾年共 10 套試卷進行標(biāo)注,請高中老師來進行打分。

像聽力 / 識圖理解這樣的題目,還找來機器視覺、語音識別領(lǐng)域的學(xué)者幫忙。

最終,煉出了這套高考英語 AI 模型,也可以叫她為 Qin

從測試結(jié)果可以看到,Qin 絕對是學(xué)霸級別了,10 套卷子成績都高于 T0pp 和 GPT-3。

此外,作者還提出了高考 benchmark。

他們覺得當(dāng)下很多評價基準(zhǔn)的任務(wù)都很單一,大多沒有實用價值,和人類情況對比也比較困難。

而高考題目既涵蓋了各種各樣的知識點,還直接有人類分?jǐn)?shù)來做比對,可以說是一箭雙雕了。

NLP 的第五范式?

如果從更深層次來看,作者認(rèn)為,重構(gòu)預(yù)訓(xùn)練或許會成為 NLP 的一種新范式,即把預(yù)訓(xùn)練 / 微調(diào)過程視為數(shù)據(jù)存儲 / 訪問過程。

此前,作者將 NLP 的發(fā)展總結(jié)成了 4 種范式:

  • P1. 非神經(jīng)網(wǎng)絡(luò)時代的完全監(jiān)督學(xué)習(xí) (Fully Supervised Learning, Non-Neural Network)

  • P2. 基于神經(jīng)網(wǎng)絡(luò)的完全監(jiān)督學(xué)習(xí) (Fully Supervised Learning, Neural Network)

  • P3. 預(yù)訓(xùn)練,精調(diào)范式 (Pre-train, Fine-tune)

  • P4. 預(yù)訓(xùn)練,提示,預(yù)測范式(Pre-train, Prompt, Predict)

但是基于當(dāng)下對 NLP 發(fā)展的觀察,他們認(rèn)為或許之后可以以一種 data-centric 的方式來看待問題。

也就是,預(yù)訓(xùn) / 精調(diào)、few-shot / zero-shot 等概念的差異化會更加模糊,核心只關(guān)注一個點 ——

有價值的信息有多少、能利用多少。

此外,他們還提出了一個 NLP 進化假說。

其中的核心思想是,技術(shù)發(fā)展方向總是順著這樣的 —— 做更少的事實現(xiàn)更好、更通用的系統(tǒng)。

作者認(rèn)為,NLP 經(jīng)歷了特征工程、架構(gòu)工程、目標(biāo)工程、提示工程,當(dāng)下正在朝著數(shù)據(jù)工程方向發(fā)展。

復(fù)旦武大校友打造

本篇論文的一作為 Weizhe Yuan。

她本科畢業(yè)于武漢大學(xué),后赴卡內(nèi)基梅隆大學(xué)讀研,學(xué)習(xí)數(shù)據(jù)科學(xué)專業(yè)。

研究方向集中在 NLP 任務(wù)的文本生成和評估。

去年,她被 AAAI 2022、NeurIPS 2021 分別接收了一篇論文,還獲得了 ACL 2021 Best Demo Paper Award。

論文的通訊作者為卡內(nèi)基梅隆大學(xué)語言技術(shù)研究所(LTI)的博士后研究員劉鵬飛。

他于 2019 年在復(fù)旦大學(xué)計算機系獲得博士學(xué)位,師從邱錫鵬教授、黃萱菁教授。

研究興趣包括 NLP 模型可解釋性、遷移學(xué)習(xí)、任務(wù)學(xué)習(xí)等。

博士期間,他包攬了各種計算機領(lǐng)域的獎學(xué)金,包括 IBM 博士獎學(xué)金、微軟學(xué)者獎學(xué)金、騰訊人工智能獎學(xué)金、百度獎學(xué)金。

One More Thing

值得一提的是,劉鵬飛在和我們介紹這項工作時,直言“最初我們就沒打算拿去投稿”。

這是因為他們不想讓會議論文的格式限制了構(gòu)思論文的想象力。

我們決定把這篇論文當(dāng)作一個故事來講,并給“讀者”一種看電影的體驗。

這也是為什么我們在第三頁,設(shè)置了一個“觀影模式“的全景圖。

就是為了帶著大家去了解 NLP 發(fā)展的歷史,以及我們所展望的未來是怎樣的,讓每一個研究者都能有一定的代入感,感受到自己去帶領(lǐng)著預(yù)訓(xùn)練語言模型們 (PLMs) 通過礦山尋寶走向更好明天的一個過程。

論文結(jié)尾,還藏了一些驚喜彩蛋。

比如 PLMs 主題表情包:

還有結(jié)尾的插畫:

這么看,100 多頁的論文讀起來也不會累了~

論文地址:

https://arxiv.org/abs/2206.11147

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI,人工智能

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知