高數(shù)考不好,不知道是多少人的噩夢。
如果說你高數(shù)考得還不如 AI 好,是不是就更難以接受了?
沒錯,來自 OpenAI 的 Codex 已經(jīng)在 MIT 的 7 門高數(shù)課程題目中正確率達(dá)到 81.1%,妥妥的 MIT 本科生水平。
課程范圍從初級微積分到微分方程、概率論、線性代數(shù)都有,題目形式除了計算、甚至還有畫圖。
這件事最近還登上了微博熱搜。
△ “僅”得 81 分,對 AI 的期待也太高了吧
現(xiàn)在,谷歌那邊又傳來了最新大消息:
不止數(shù)學(xué),我們的 AI 甚至在整個理工科上,都已經(jīng)拿到最高分啦!
看來在培養(yǎng)“AI 做題家”這件事上,科技巨頭們已經(jīng)卷出了新高度。
谷歌這個最新 AI 做題家,參加了四門考試。
數(shù)學(xué)競賽考試 MATH,以往只有三屆 IMO 金牌得主才拿過 90 分,普通的計算機(jī)博士甚至只能拿到 40 分左右。
至于別的 AI 做題家們,以前最好成績只有 6.9 分……
但這一次,谷歌新 AI 卻刷到了 50 分,比計算機(jī)博士還高。
綜合考試 MMLU-STEM,內(nèi)含數(shù)理化生、電子工程和計算機(jī)科學(xué),題目難度達(dá)到高中甚至大學(xué)水平。
這一次,谷歌 AI“滿血版”,也都拿到了做題家中的最高分,直接將分?jǐn)?shù)拉高了 20 分左右。
小學(xué)數(shù)學(xué)題 GSM8k,直接將成績拉升到 78 分,相比之下 GPT-3 還沒及格(僅 55 分)。
就連 MIT 本科和研究生學(xué)的固體化學(xué)、天文學(xué)、微分方程和狹義相對論等課程,谷歌新 AI 也能在 200 多道題中,答出將近三分之一。
最重要的是,與 OpenAI 憑借“編程技巧”取得數(shù)學(xué)高分的方法不同,谷歌 AI 這一次,走的可是“像人一樣思考”的路子 ——
它像一個文科生一樣只背書不做題,卻掌握了更好的理工科解題技巧。
值得一提的是,論文一作 Lewkowycz 還分享了一個論文中沒寫到的亮點:
我們的模型參加了今年的波蘭數(shù)學(xué)高考,成績比全國平均分還要高。
看到這里,有的家長已經(jīng)坐不住了。
如果告訴我女兒這件事,我怕她用 AI 做作業(yè)。但如果不告訴她,就沒有讓她對未來做好準(zhǔn)備!
在業(yè)內(nèi)人士看來,只靠語言模型,不對算數(shù)、邏輯和代數(shù)做硬編碼達(dá)到這種水平,是這項研究最驚艷的地方。
那么,這是怎么做到的?
AI 狂讀 arXiv 上 200 萬篇論文
新模型 Minerva,基于 Pathway 架構(gòu)下的通用語言模型 PaLM 改造而來。
分別在 80 億、600 億和 5400 億參數(shù) PaLM 模型的基礎(chǔ)上做進(jìn)一步訓(xùn)練。
Minerva 做題與 Codex 的思路完全不同。
Codex 的方法是把每道數(shù)學(xué)題改寫成編程題,再靠寫代碼來解決。
而 Minerva 則是狂讀論文,硬生生按理解自然語言的方式去理解數(shù)學(xué)符號。
在 PaLM 的基礎(chǔ)上繼續(xù)訓(xùn)練,新增的數(shù)據(jù)集有三部分:
主要有 arXiv 上收集的 200 萬篇學(xué)術(shù)論文,60GB 帶 LaTeX 公式的網(wǎng)頁,以及一小部分在 PaLM 訓(xùn)練階段就用到過的文本。
通常的 NLP 數(shù)據(jù)清洗過程會把符號都刪掉只保留純文字,導(dǎo)致公式不完整,比如愛因斯坦著名的質(zhì)能方程只剩下了 Emc2。
但谷歌這次把公式都保留,和純文本一樣走一遍 Transformer 的訓(xùn)練程序,讓 AI 像理解語言一樣去理解符號。
與之前的語言模型相比,這是 Minerva 在數(shù)理問題上表現(xiàn)更好的原因之一。
但與專門做數(shù)學(xué)題的 AI 相比,Minerva 的訓(xùn)練中沒有顯式的底層數(shù)學(xué)結(jié)構(gòu),這帶來一個缺點和一個優(yōu)點。
缺點,是可能出現(xiàn) AI 用錯誤的步驟得到正確答案的情況。
優(yōu)點,是可以適應(yīng)不同學(xué)科,即使有些問題無法用正規(guī)的數(shù)學(xué)語言表達(dá)出來,也可以結(jié)合自然語言理解能力解出來。
到了 AI 的推理階段,Minerva 還結(jié)合了多個最近谷歌開發(fā)的新技術(shù)。
先是 Chain of Thought 思維鏈路提示,今年一月由谷歌大腦團(tuán)隊提出。
具體來說就是在提問的同時給一個分步驟回答的示例來引導(dǎo)。AI 在做題時就可以采用類似的思考過程,正確回答本來會答錯的題目。
再有是谷歌和 MIT 合作開發(fā)的 Scrathpad 草稿紙方法,讓 AI 把分步計算的中間結(jié)果臨時存儲起來。
最后還有 Majority Voting 多數(shù)表決方法,也是今年 3 月才發(fā)表的。
讓 AI 多次回答同一個題目,選擇答案中出現(xiàn)頻率最高的。
所有這些技巧全用上以后,5400 億參數(shù)的 Minerva 在各種測試集中達(dá)到 SOTA。
甚至 80 億參數(shù)版的 Minerva,在競賽級數(shù)學(xué)題和 MIT 公開課問題中,也能達(dá)到 GPT-3 最新更新的 davinci-002 版本水平。
說了這么多,Minerva 具體都能做出哪些題目?
對此谷歌也開放出了樣例集,一起來看一下。
數(shù)理化生全能,連機(jī)器學(xué)習(xí)都會
數(shù)學(xué)上,Minerva 可以像人類一樣按步驟計算數(shù)值,而不是直接暴力求解。
對于應(yīng)用題,可以自己列出方程式并做簡化。
甚至還可以推導(dǎo)證明。
物理上,Minerva 可以求中性氮基態(tài)(Z = 7)電子的總自旋量子數(shù)這樣的大學(xué)水平題目。
生物和化學(xué)上,Minerva 憑借語言理解能力也可以做各種選擇題。
以下哪種點突變形式對 DNA 序列形成的蛋白質(zhì)沒有負(fù)面影響?
以下哪種是放射性元素?
以及天文學(xué):為什么地球擁有很強(qiáng)的磁場?
在機(jī)器學(xué)習(xí)方面,它通過解釋“分布外樣本檢測”的具體含義,從而正確了給出這個名詞的另一種說法。
……
不過,Minerva 有時也會犯一些低級錯誤,比如把等式兩邊的√給消了。
除此之外,Minerva 會出現(xiàn)的推理過程錯誤但結(jié)果對的“假陽性”情況,比如下面這種,有 8% 的可能性。
經(jīng)過分析之后,團(tuán)隊發(fā)現(xiàn)主要的錯誤形式來自計算錯誤和推理錯誤,只有小部分來自題意理解錯誤和在步驟中使用了錯誤的事實等其他情況。
其中計算錯誤可以輕易通過訪問外部計算器或 Python 解釋器解決,但其他種類的錯誤因為神經(jīng)網(wǎng)絡(luò)規(guī)模太大就不太好調(diào)整了。
總的來看,Minerva 的表現(xiàn)讓很多人感到驚艷,紛紛在評論區(qū)求 API(可惜谷歌目前并沒有公開計劃)。
有的網(wǎng)友想到,加上前幾日讓 GPT-3 解題正確率暴漲 61% 的“哄一哄”大法,它的準(zhǔn)確率或許還可以再提高?
不過作者的回應(yīng)是,哄一哄方法屬于零樣本學(xué)習(xí),再強(qiáng)恐怕也比不上帶 4 個例子的少樣本學(xué)習(xí)。
還有網(wǎng)友提出,既然它可以做題,那么能不能反過來出題?
事實上用 AI 給大學(xué)生出題這件事,MIT 已經(jīng)聯(lián)合 OpenAI 在做了。
他們把人類出的題和 AI 出的題混在一起,找學(xué)生來做問卷調(diào)查,大家也很難分清一道題是不是 AI 出的。
總之現(xiàn)在的情況,除了搞 AI 的在忙著讀這篇論文以外。
學(xué)生們盼著有一天能用 AI 做作業(yè)。
老師們也盼著有一天能用 AI 出卷子。
論文地址:
https://storage.googleapis.com/minerva-paper/minerva_paper.pdf
Demo 地址:
https://minerva-demo.github.io/
相關(guān)論文:
Chain of Thought
https://arxiv.org/abs/2201.11903
Scrathpads
https://arxiv.org/abs/2112.00114
Majority Voting
https://arxiv.org/abs/2203.11171
參考鏈接:
https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html
https://twitter.com/bneyshabur/status/1542563148334596098
https://twitter.com/alewkowycz/status/1542559176483823622
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。