首頁 > 智能時代>人工智能

今年高考英語 AI 得分 134，復(fù)旦武大校友這項研究有點意思

量子位 2022/6/25 12:57:08 責(zé)編：長河

評論：

在挑戰(zhàn)寫語文作文后，AI 現(xiàn)在又盯上了高考英語。

結(jié)果好家伙，今年高考英語卷（全國甲卷）一上手，就拿了 134 分。

今年高考英語 AI 得分 134，復(fù)旦武大校友這項研究有點意思

而且不是偶然的超常發(fā)揮。

在 2018-2021 年的 10 套真題測試中，AI 的分?jǐn)?shù)都在 125 分以上，最高紀(jì)錄為 138.5 分，聽力和閱讀理解還拿過滿分。

這就是由 CMU 學(xué)者提出的，高考英語測試 AI 系統(tǒng) Qin。

它的參數(shù)量只有 GPT-3 的 16 分之一，平均成績卻比 GPT-3 高出 15 分。

今年高考英語 AI 得分 134，復(fù)旦武大校友這項研究有點意思

其背后的秘訣名叫重構(gòu)預(yù)訓(xùn)練（reStructured Pre-training），是作者提出的一種新學(xué)習(xí)范式。

具體來看，就是把維基百科、YouTube 等平臺的信息重新提取重構(gòu)，再喂給 AI 進行訓(xùn)練，由此讓 AI 具有更強的泛化能力。

兩位學(xué)者用足足 100 多頁的論文，深入解釋了這一新范式。

今年高考英語 AI 得分 134，復(fù)旦武大校友這項研究有點意思

那么，這一范式到底講了什么？

我們來深扒一下~

什么是重構(gòu)預(yù)訓(xùn)練？

論文題目很簡單，就叫 reStructured Pre-training（重構(gòu)預(yù)訓(xùn)練，RST）。

今年高考英語 AI 得分 134，復(fù)旦武大校友這項研究有點意思

核心觀點凝練來說就是一句話，要重視數(shù)據(jù)?。?/p>

作者認(rèn)為，這個世界上有價值的信息無處不在，而目前的 AI 系統(tǒng)并沒有充分利用數(shù)據(jù)中的信息。

比如像維基百科，Github，里面包含了各種可以供模型學(xué)習(xí)的信號：實體，關(guān)系，文本摘要，文本主題等。這些信號之前由于技術(shù)瓶頸都沒有被考慮。

所以，作者在本文中提出了一種方法，可以用神經(jīng)網(wǎng)絡(luò)統(tǒng)一地存儲和訪問包含各種類型信息的數(shù)據(jù)。

他們以信號為單位、結(jié)構(gòu)化地表示數(shù)據(jù)，這很類似于數(shù)據(jù)科學(xué)里我們常常將數(shù)據(jù)構(gòu)造成表或 JSON 格式，然后通過專門的語言（如 SQL）來檢索所需的信息。

今年高考英語 AI 得分 134，復(fù)旦武大校友這項研究有點意思

具體來看，這里的信號，其實就是指數(shù)據(jù)中的有用信息。

比如在“莫扎特生于薩爾茨堡”這句話中，“莫扎特”、“薩爾茨堡”就是信號。

然后，就需要在各種平臺上挖掘數(shù)據(jù)、提取信號，作者把這個過程比作了從礦山里尋寶。

今年高考英語 AI 得分 134，復(fù)旦武大校友這項研究有點意思

接下來，利用 prompt 方法，就能將這些來自不同地方的信號統(tǒng)一成一種形式。

最后，再將這些重組的數(shù)據(jù)集成并存儲到語言模型中。

這樣一來，該研究就能從 10 個數(shù)據(jù)源中，統(tǒng)一 26 種不同類型的信號，讓模型獲得很強的泛化能力。

結(jié)果表明，在多個數(shù)據(jù)集中，RST-T、RST-A 零樣本學(xué)習(xí)的表現(xiàn)，都優(yōu)于 GPT-3 的少樣本學(xué)習(xí)性能。

今年高考英語 AI 得分 134，復(fù)旦武大校友這項研究有點意思

而為了更進一步測試新方法的表現(xiàn)，作者還想到了讓 AI 做高考題的方法。

他們表示，現(xiàn)在很多工作方法走的都是漢化 GPT-3 的思路，在評估的應(yīng)用場景上也是跟隨 OpenAI、DeepMind。

比如 GLUE 測評基準(zhǔn)、蛋白質(zhì)折疊評分等。

基于對當(dāng)下 AI 模型發(fā)展的觀察，作者認(rèn)為可以開辟出一條新的賽道試試，所以就想到了用高考給 AI 練練手。

他們找來了前后幾年共 10 套試卷進行標(biāo)注，請高中老師來進行打分。

像聽力 / 識圖理解這樣的題目，還找來機器視覺、語音識別領(lǐng)域的學(xué)者幫忙。

最終，煉出了這套高考英語 AI 模型，也可以叫她為 Qin。

今年高考英語 AI 得分 134，復(fù)旦武大校友這項研究有點意思

從測試結(jié)果可以看到，Qin 絕對是學(xué)霸級別了，10 套卷子成績都高于 T0pp 和 GPT-3。

今年高考英語 AI 得分 134，復(fù)旦武大校友這項研究有點意思

此外，作者還提出了高考 benchmark。

他們覺得當(dāng)下很多評價基準(zhǔn)的任務(wù)都很單一，大多沒有實用價值，和人類情況對比也比較困難。

而高考題目既涵蓋了各種各樣的知識點，還直接有人類分?jǐn)?shù)來做比對，可以說是一箭雙雕了。

NLP 的第五范式？

如果從更深層次來看，作者認(rèn)為，重構(gòu)預(yù)訓(xùn)練或許會成為 NLP 的一種新范式，即把預(yù)訓(xùn)練 / 微調(diào)過程視為數(shù)據(jù)存儲 / 訪問過程。

此前，作者將 NLP 的發(fā)展總結(jié)成了 4 種范式：

P1. 非神經(jīng)網(wǎng)絡(luò)時代的完全監(jiān)督學(xué)習(xí) （Fully Supervised Learning, Non-Neural Network）
P2. 基于神經(jīng)網(wǎng)絡(luò)的完全監(jiān)督學(xué)習(xí) (Fully Supervised Learning, Neural Network)
P3. 預(yù)訓(xùn)練，精調(diào)范式 (Pre-train, Fine-tune)
P4. 預(yù)訓(xùn)練，提示，預(yù)測范式（Pre-train, Prompt, Predict）

今年高考英語 AI 得分 134，復(fù)旦武大校友這項研究有點意思