首頁(yè) > 智能時(shí)代>人工智能

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

量子位 2022/7/1 15:13:14 責(zé)編：長(zhǎng)河

評(píng)論：

高數(shù)考不好，不知道是多少人的噩夢(mèng)。

如果說你高數(shù)考得還不如 AI 好，是不是就更難以接受了？

沒錯(cuò)，來自 OpenAI 的 Codex 已經(jīng)在 MIT 的 7 門高數(shù)課程題目中正確率達(dá)到 81.1%，妥妥的 MIT 本科生水平。

課程范圍從初級(jí)微積分到微分方程、概率論、線性代數(shù)都有，題目形式除了計(jì)算、甚至還有畫圖。

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

這件事最近還登上了微博熱搜。

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

△ “僅”得 81 分，對(duì) AI 的期待也太高了吧

現(xiàn)在，谷歌那邊又傳來了最新大消息：

不止數(shù)學(xué)，我們的 AI 甚至在整個(gè)理工科上，都已經(jīng)拿到最高分啦！

看來在培養(yǎng)“AI 做題家”這件事上，科技巨頭們已經(jīng)卷出了新高度。

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

谷歌這個(gè)最新 AI 做題家，參加了四門考試。

數(shù)學(xué)競(jìng)賽考試 MATH，以往只有三屆 IMO 金牌得主才拿過 90 分，普通的計(jì)算機(jī)博士甚至只能拿到 40 分左右。

至于別的 AI 做題家們，以前最好成績(jī)只有 6.9 分……

但這一次，谷歌新 AI 卻刷到了 50 分，比計(jì)算機(jī)博士還高。

綜合考試 MMLU-STEM，內(nèi)含數(shù)理化生、電子工程和計(jì)算機(jī)科學(xué)，題目難度達(dá)到高中甚至大學(xué)水平。

這一次，谷歌 AI“滿血版”，也都拿到了做題家中的最高分，直接將分?jǐn)?shù)拉高了 20 分左右。

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

小學(xué)數(shù)學(xué)題 GSM8k，直接將成績(jī)拉升到 78 分，相比之下 GPT-3 還沒及格（僅 55 分）。

就連 MIT 本科和研究生學(xué)的固體化學(xué)、天文學(xué)、微分方程和狹義相對(duì)論等課程，谷歌新 AI 也能在 200 多道題中，答出將近三分之一。

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

最重要的是，與 OpenAI 憑借“編程技巧”取得數(shù)學(xué)高分的方法不同，谷歌 AI 這一次，走的可是“像人一樣思考”的路子 ——

它像一個(gè)文科生一樣只背書不做題，卻掌握了更好的理工科解題技巧。

值得一提的是，論文一作 Lewkowycz 還分享了一個(gè)論文中沒寫到的亮點(diǎn)：

我們的模型參加了今年的波蘭數(shù)學(xué)高考，成績(jī)比全國(guó)平均分還要高。

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

看到這里，有的家長(zhǎng)已經(jīng)坐不住了。

如果告訴我女兒這件事，我怕她用 AI 做作業(yè)。但如果不告訴她，就沒有讓她對(duì)未來做好準(zhǔn)備！

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

在業(yè)內(nèi)人士看來，只靠語(yǔ)言模型，不對(duì)算數(shù)、邏輯和代數(shù)做硬編碼達(dá)到這種水平，是這項(xiàng)研究最驚艷的地方。

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

那么，這是怎么做到的？

AI 狂讀 arXiv 上 200 萬篇論文

新模型 Minerva，基于 Pathway 架構(gòu)下的通用語(yǔ)言模型 PaLM 改造而來。

分別在 80 億、600 億和 5400 億參數(shù) PaLM 模型的基礎(chǔ)上做進(jìn)一步訓(xùn)練。

Minerva 做題與 Codex 的思路完全不同。

Codex 的方法是把每道數(shù)學(xué)題改寫成編程題，再靠寫代碼來解決。

而 Minerva 則是狂讀論文，硬生生按理解自然語(yǔ)言的方式去理解數(shù)學(xué)符號(hào)。

在 PaLM 的基礎(chǔ)上繼續(xù)訓(xùn)練，新增的數(shù)據(jù)集有三部分：

主要有 arXiv 上收集的 200 萬篇學(xué)術(shù)論文，60GB 帶 LaTeX 公式的網(wǎng)頁(yè)，以及一小部分在 PaLM 訓(xùn)練階段就用到過的文本。

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

通常的 NLP 數(shù)據(jù)清洗過程會(huì)把符號(hào)都刪掉只保留純文字，導(dǎo)致公式不完整，比如愛因斯坦著名的質(zhì)能方程只剩下了 Emc2。

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

但谷歌這次把公式都保留，和純文本一樣走一遍 Transformer 的訓(xùn)練程序，讓 AI 像理解語(yǔ)言一樣去理解符號(hào)。

與之前的語(yǔ)言模型相比，這是 Minerva 在數(shù)理問題上表現(xiàn)更好的原因之一。

但與專門做數(shù)學(xué)題的 AI 相比，Minerva 的訓(xùn)練中沒有顯式的底層數(shù)學(xué)結(jié)構(gòu)，這帶來一個(gè)缺點(diǎn)和一個(gè)優(yōu)點(diǎn)。

缺點(diǎn)，是可能出現(xiàn) AI 用錯(cuò)誤的步驟得到正確答案的情況。

優(yōu)點(diǎn)，是可以適應(yīng)不同學(xué)科，即使有些問題無法用正規(guī)的數(shù)學(xué)語(yǔ)言表達(dá)出來，也可以結(jié)合自然語(yǔ)言理解能力解出來。

到了 AI 的推理階段，Minerva 還結(jié)合了多個(gè)最近谷歌開發(fā)的新技術(shù)。

先是 Chain of Thought 思維鏈路提示，今年一月由谷歌大腦團(tuán)隊(duì)提出。

具體來說就是在提問的同時(shí)給一個(gè)分步驟回答的示例來引導(dǎo)。AI 在做題時(shí)就可以采用類似的思考過程，正確回答本來會(huì)答錯(cuò)的題目。

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

再有是谷歌和 MIT 合作開發(fā)的 Scrathpad 草稿紙方法，讓 AI 把分步計(jì)算的中間結(jié)果臨時(shí)存儲(chǔ)起來。

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

最后還有 Majority Voting 多數(shù)表決方法，也是今年 3 月才發(fā)表的。

讓 AI 多次回答同一個(gè)題目，選擇答案中出現(xiàn)頻率最高的。

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

所有這些技巧全用上以后，5400 億參數(shù)的 Minerva 在各種測(cè)試集中達(dá)到 SOTA。

甚至 80 億參數(shù)版的 Minerva，在競(jìng)賽級(jí)數(shù)學(xué)題和 MIT 公開課問題中，也能達(dá)到 GPT-3 最新更新的 davinci-002 版本水平。

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

說了這么多，Minerva 具體都能做出哪些題目？

對(duì)此谷歌也開放出了樣例集，一起來看一下。

數(shù)理化生全能，連機(jī)器學(xué)習(xí)都會(huì)

數(shù)學(xué)上，Minerva 可以像人類一樣按步驟計(jì)算數(shù)值，而不是直接暴力求解。

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

對(duì)于應(yīng)用題，可以自己列出方程式并做簡(jiǎn)化。

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

甚至還可以推導(dǎo)證明。

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

物理上，Minerva 可以求中性氮基態(tài)（Z = 7）電子的總自旋量子數(shù)這樣的大學(xué)水平題目。

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

生物和化學(xué)上，Minerva 憑借語(yǔ)言理解能力也可以做各種選擇題。

以下哪種點(diǎn)突變形式對(duì) DNA 序列形成的蛋白質(zhì)沒有負(fù)面影響？

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

以下哪種是放射性元素？

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

以及天文學(xué)：為什么地球擁有很強(qiáng)的磁場(chǎng)？

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

在機(jī)器學(xué)習(xí)方面，它通過解釋“分布外樣本檢測(cè)”的具體含義，從而正確了給出這個(gè)名詞的另一種說法。

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

……

不過，Minerva 有時(shí)也會(huì)犯一些低級(jí)錯(cuò)誤，比如把等式兩邊的√給消了。

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

除此之外，Minerva 會(huì)出現(xiàn)的推理過程錯(cuò)誤但結(jié)果對(duì)的“假陽(yáng)性”情況，比如下面這種，有 8% 的可能性。

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

經(jīng)過分析之后，團(tuán)隊(duì)發(fā)現(xiàn)主要的錯(cuò)誤形式來自計(jì)算錯(cuò)誤和推理錯(cuò)誤，只有小部分來自題意理解錯(cuò)誤和在步驟中使用了錯(cuò)誤的事實(shí)等其他情況。

其中計(jì)算錯(cuò)誤可以輕易通過訪問外部計(jì)算器或 Python 解釋器解決，但其他種類的錯(cuò)誤因?yàn)樯窠?jīng)網(wǎng)絡(luò)規(guī)模太大就不太好調(diào)整了。

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

總的來看，Minerva 的表現(xiàn)讓很多人感到驚艷，紛紛在評(píng)論區(qū)求 API（可惜谷歌目前并沒有公開計(jì)劃）。

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

有的網(wǎng)友想到，加上前幾日讓 GPT-3 解題正確率暴漲 61% 的“哄一哄”大法，它的準(zhǔn)確率或許還可以再提高？

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

不過作者的回應(yīng)是，哄一哄方法屬于零樣本學(xué)習(xí)，再?gòu)?qiáng)恐怕也比不上帶 4 個(gè)例子的少樣本學(xué)習(xí)。

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

還有網(wǎng)友提出，既然它可以做題，那么能不能反過來出題？

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

事實(shí)上用 AI 給大學(xué)生出題這件事，MIT 已經(jīng)聯(lián)合 OpenAI 在做了。

他們把人類出的題和 AI 出的題混在一起，找學(xué)生來做問卷調(diào)查，大家也很難分清一道題是不是 AI 出的。

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

總之現(xiàn)在的情況，除了搞 AI 的在忙著讀這篇論文以外。

學(xué)生們盼著有一天能用 AI 做作業(yè)。

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

老師們也盼著有一天能用 AI 出卷子。

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

論文地址：

https://storage.googleapis.com/minerva-paper/minerva_paper.pdf

Demo 地址：

https://minerva-demo.github.io/

相關(guān)論文：

Chain of Thought

https://arxiv.org/abs/2201.11903

Scrathpads

https://arxiv.org/abs/2112.00114

Majority Voting

https://arxiv.org/abs/2203.11171

參考鏈接：

https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html

https://twitter.com/bneyshabur/status/1542563148334596098

https://twitter.com/alewkowycz/status/1542559176483823622

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

AI 狂讀 arXiv 上 200 萬篇論文

數(shù)理化生全能，連機(jī)器學(xué)習(xí)都會(huì)

相關(guān)文章

AI 做題家卷瘋了！高數(shù)考試正確率 81%，競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士

數(shù)理化生全能，連機(jī)器學(xué)習(xí)都會(huì)