美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science,人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

新智元 2024/5/13 14:51:41 責(zé)編:清源

【新智元導(dǎo)讀】為訓(xùn)練 AI 模型,紐約州立大學(xué)的一名教授 Brenden Lake,竟讓自己不到 2 歲女兒頭戴相機(jī)收集數(shù)據(jù)!要知道,Meta 訓(xùn) Llama 3 直接用了 15 萬(wàn)億個(gè) token,如果 Lake 真能讓 AI 模型學(xué)習(xí)人類(lèi)幼崽,從有限的輸入中學(xué)習(xí),那 LLM 的全球數(shù)據(jù)荒豈不是解決了?

為了訓(xùn)練 AI 模型,一位紐約州立大學(xué)的教授,竟然把類(lèi)似 GoPro 的相機(jī)綁在了自己女兒頭上!

雖然聽(tīng)起來(lái)不可思議,但這位教授的行為,其實(shí)是有據(jù)可循的。

要訓(xùn)練出 LLM 背后的復(fù)雜神經(jīng)網(wǎng)絡(luò),需要海量數(shù)據(jù)。

目前我們訓(xùn)練 LLM 的過(guò)程,一定是最簡(jiǎn)潔、最高效的方式嗎?

肯定不是!科學(xué)家們發(fā)現(xiàn),蹣跚學(xué)步的人類(lèi)兒童,大腦就像海綿吸水一樣,能迅速形成一個(gè)連貫的世界觀。

雖然 LLM 時(shí)有驚人的表現(xiàn),但隨著時(shí)間的推移,人類(lèi)兒童會(huì)比模型更聰明、更有創(chuàng)造力!

兒童掌握語(yǔ)言的秘密

如何用更好的方法訓(xùn)練 LLM?

科學(xué)家們苦思不得其解之時(shí),人類(lèi)幼崽讓他們眼前一亮 ——

他們學(xué)習(xí)語(yǔ)言的方式,堪稱(chēng)是語(yǔ)言習(xí)得的大師。

咱們都知道這樣的故事:把一個(gè)幼年的孩子扔進(jìn)一個(gè)語(yǔ)言文化完全不同的國(guó)家,不出幾個(gè)月,ta 對(duì)于當(dāng)?shù)卣Z(yǔ)言的掌握可能就接近了母語(yǔ)水平。

而大語(yǔ)言模型,就顯得相形見(jiàn)絀了。

首先,它們太費(fèi)數(shù)據(jù)了!

如今訓(xùn)模型的各大公司,快把全世界的數(shù)據(jù)給薅空了。因?yàn)?LLM 的學(xué)習(xí),需要的是從網(wǎng)絡(luò)和各個(gè)地方挖掘的天文數(shù)字級(jí)的文本。

要讓它們掌握一門(mén)語(yǔ)言,需要喂給它們數(shù)萬(wàn)億個(gè)單詞。

▲ Brenden Lake 和參與這項(xiàng)研究的 NYU 學(xué)者

其次,興師動(dòng)眾地砸了這么多數(shù)據(jù)進(jìn)去,LLM 也未必學(xué)得準(zhǔn)確。

許多 LLM 的輸出,是以一定準(zhǔn)確度預(yù)測(cè)下一個(gè)單詞。而這種準(zhǔn)確度,越來(lái)越令人不安。

形成鮮明對(duì)比的是,要學(xué)會(huì)流利使用一門(mén)語(yǔ)言,兒童可不需要這么多經(jīng)驗(yàn)。

紐約州立大學(xué)研究人類(lèi)和 AI 的心理學(xué)家 Brenden Lake,就盯上了這一點(diǎn)。

他決定,拿自己 1 歲 9 個(gè)月的女兒 Luna 做實(shí)驗(yàn)。

過(guò)去的 11 個(gè)月里,Lake 每周都會(huì)讓女兒戴一個(gè)小時(shí)的相機(jī),以她的角度記錄玩耍時(shí)的視頻。

通過(guò) Luna 相機(jī)拍攝的視頻,Lake 希望通過(guò)使用孩子接觸到的相同數(shù)據(jù),來(lái)訓(xùn)練模型。

把 GoPro 綁在蹣跚學(xué)步的女兒身上

雖然目前語(yǔ)言學(xué)家和兒童專(zhuān)家對(duì)于兒童究竟如何習(xí)得語(yǔ)言,并未達(dá)成一致,但 Lake 十分確信:使 LLM 更有效率的秘訣,就藏在兒童的學(xué)習(xí)模式里!

因此,Lake 開(kāi)展了這樣一項(xiàng)研究項(xiàng)目:研究?jī)和趯W(xué)習(xí)第一句話(huà)時(shí)所經(jīng)歷的刺激,以此提高訓(xùn)練 LLM 的效率。

為此,Lake 的團(tuán)隊(duì)需要收集來(lái)自美國(guó)各地的 25 名兒童的視頻和音頻數(shù)據(jù)。

這就有了文章開(kāi)頭的一幕 —— 他們把類(lèi)似 GoPro 的相機(jī)綁在了這些孩子的頭上,包括 Lake 的女兒 Luna。

Lake 解釋道,他們的模型試圖從孩子的角度,將視頻片段和孩子的照顧者所說(shuō)的話(huà)聯(lián)系起來(lái),方式類(lèi)似于 OpenAI 的 Clip 模型將標(biāo)注和圖像聯(lián)系起來(lái)。

Clip 可以將圖像作為輸入,并根據(jù)圖像-標(biāo)注對(duì)的訓(xùn)練數(shù)據(jù),輸出一個(gè)描述性標(biāo)注作為建議。

論文地址:https://openai.com/index/clip/

另外,Lake 團(tuán)隊(duì)的模型還可以根據(jù) GoPro 鏡頭的訓(xùn)練數(shù)據(jù)和照顧者的音頻,將場(chǎng)景的圖像作為輸入,然后輸出語(yǔ)言來(lái)描述這個(gè)場(chǎng)景。

而且,模型還可以將描述轉(zhuǎn)換為以前在訓(xùn)練中看到的幀。

乍一聽(tīng),是不是還挺簡(jiǎn)單的?就是讓模型像人類(lèi)兒童一樣,學(xué)會(huì)將口語(yǔ)和在視頻幀中所觀察到的物體相匹配。

但具體執(zhí)行起來(lái),還會(huì)面臨很多復(fù)雜的狀況。

比如,孩子們并不一定總是看著被描述的物體或動(dòng)作。

甚至還有更抽象的情況,比如我們給孩子牛奶,但牛奶是裝在不透明的杯子里,這就會(huì)導(dǎo)致關(guān)聯(lián)非常松散。

因而,Lake 解釋說(shuō):這個(gè)實(shí)驗(yàn)并不是想證明,我們是否可以訓(xùn)練模型將圖像中的對(duì)象與相應(yīng)的單詞相匹配(OpenAI 已經(jīng)證明了這一點(diǎn))。

相反,團(tuán)隊(duì)想要做的是,希望知道模型是否可以只用兒童可用的稀疏數(shù)據(jù)級(jí)(稀疏到難以置信的程度),就能真的學(xué)習(xí)識(shí)別物體。

可以看到,這和 OpenAI、谷歌、Meta 等大公司構(gòu)建模型的思路完全相反。

要知道,Meta 訓(xùn)練 Llama 3,用了 15 萬(wàn)億個(gè) token。

如果 Lake 團(tuán)隊(duì)的實(shí)驗(yàn)成功,或許全世界共同面臨的 LLM 數(shù)據(jù)荒,就有解了 —— 因?yàn)槟菚r(shí),訓(xùn)練 LLM 根本就不需要那么多的數(shù)據(jù)!

也就是說(shuō),新的思路是,讓 AI 模型從有限的輸入中學(xué)習(xí),然后從我們看到的數(shù)據(jù)中推廣出來(lái)。

我認(rèn)為我們的關(guān)注點(diǎn),不該局限在從越來(lái)越多的數(shù)據(jù)中訓(xùn)練越來(lái)越大的 LLM。是的,你可以通過(guò)這種方式讓 LLM 具有驚人的性能,但它已經(jīng)離我們所知道的人類(lèi)智能奇妙之處越來(lái)越遠(yuǎn)……

早期實(shí)驗(yàn)已經(jīng)取得成功

早期的實(shí)驗(yàn)結(jié)果,已經(jīng)證明了 Lake 團(tuán)隊(duì)的思路可能是對(duì)的。

今年 2 月,他們?cè)?jīng)用了 61 小時(shí)的視頻片段訓(xùn)出一個(gè)神經(jīng)網(wǎng)絡(luò),紀(jì)錄一個(gè)幼兒的經(jīng)歷。

研究發(fā)現(xiàn),模型能夠?qū)⒈辉囌f(shuō)出的各種單詞和短語(yǔ),與視頻幀中捕獲的體驗(yàn)聯(lián)系起來(lái) —— 只要呈現(xiàn)要給單詞或短語(yǔ),模型就能回憶起相關(guān)圖像。這篇論文已經(jīng)發(fā)表于 Science。

論文地址:https://www.science.org/doi/10.1126/science.adi1374

Lake 表示,最令人驚喜的是,模型竟然能夠概括出未訓(xùn)練的圖像中的對(duì)象名稱(chēng)!

當(dāng)然,準(zhǔn)確性未必很好。但模型本來(lái)也只是為了驗(yàn)證一個(gè)概念而已。

項(xiàng)目尚未完成,因?yàn)槟P瓦€沒(méi)有學(xué)到一個(gè)兒童會(huì)知道的一切。

畢竟,它只有 60 小時(shí)左右的帶標(biāo)注的演講,這僅僅是一個(gè)兒童在兩年內(nèi)所習(xí)得經(jīng)驗(yàn)的百分之一。而團(tuán)隊(duì)還需要更多的數(shù)據(jù),才能搞清什么是可學(xué)習(xí)的。

而且 Lake 也承認(rèn),第一個(gè)模型使用的方法還是有局限性 ——

僅分析與照顧者話(huà)語(yǔ)相關(guān)的視頻片段,僅僅是鏡頭以每秒 5 幀的速度轉(zhuǎn)化為圖像,只憑這些,AI 并沒(méi)有真正學(xué)會(huì)什么是動(dòng)詞,什么是抽象詞,它獲得的僅僅是關(guān)于世界樣子的靜態(tài)切片。

因?yàn)樗鼘?duì)之前發(fā)生了什么、之后發(fā)生了什么、談話(huà)背景都一無(wú)所知,所以很難學(xué)習(xí)什么是「走」「跑」「跳」。

但以后,隨著建模視頻背后的技術(shù)越來(lái)越成熟,Lake 相信團(tuán)隊(duì)會(huì)構(gòu)建更有效的模型。

如果我們能夠建立一個(gè)真正開(kāi)始習(xí)得語(yǔ)言的模型,它就會(huì)為理解人類(lèi)的學(xué)習(xí)和發(fā)展開(kāi)辟重要的應(yīng)用程序,或許能幫我們理解發(fā)育障礙,或兒童學(xué)習(xí)語(yǔ)言的情況。

最終,這樣的模型還可以用來(lái)測(cè)試數(shù)百萬(wàn)種不同的語(yǔ)言治療法。

話(huà)說(shuō)回來(lái),孩子究竟是如何通過(guò)自己的眼睛和耳朵,扎實(shí)地掌握一門(mén)語(yǔ)言的呢?

讓我們仔細(xì)看看 Lake 團(tuán)隊(duì)發(fā)在 Science 上的這篇文章。

將單詞和實(shí)物、視覺(jué)圖像聯(lián)系起來(lái)

人類(lèi)兒童如何褪去對(duì)這個(gè)世界的懵懂無(wú)知,習(xí)得知識(shí)?這個(gè)「黑箱」的奧秘,不僅吸引著教育學(xué)家們的不斷求索,也是困于我們每個(gè)人心底關(guān)于個(gè)體智慧來(lái)處的追問(wèn)。

韓國(guó)科幻作家金草葉在《共生假說(shuō)》中寫(xiě)下這樣的設(shè)想:人類(lèi)兒童在幼年時(shí)期所展示出的智慧其實(shí)承載著一個(gè)失落的外星文明,他們選擇用這樣的方式和人類(lèi)共生,可是時(shí)間只有短短的五年,在人類(lèi)長(zhǎng)大擁有真正牢固的記憶之后,便把幼年時(shí)期這段瑰麗的記憶抹去了

也時(shí)常有網(wǎng)友會(huì)在網(wǎng)上分享出,那些「忘記喝孟婆湯」的人類(lèi)幼崽故事。

關(guān)于謎一樣的幼年時(shí)期,那是我們很難說(shuō)清也難以回返的神秘之地,是一種「鄉(xiāng)愁」。就像金草葉寫(xiě)下的」不要離開(kāi)。不要帶走那個(gè)美麗的世界。在我長(zhǎng)大之后,也請(qǐng)留在我身邊。

幼兒究竟是如何將新單詞和特定的物體,或視覺(jué)概念聯(lián)系起來(lái)的?

比如,聽(tīng)到「球」這個(gè)詞時(shí),兒童是如何想到有彈性的圓形物體的?

為此,Lake 的團(tuán)隊(duì)給一個(gè)兒童戴上了頭戴式攝像機(jī),追蹤了 ta 從 6 到 25 個(gè)月期間的成長(zhǎng)過(guò)程,記錄了一個(gè) 61 小時(shí)的視覺(jué)語(yǔ)言數(shù)據(jù)流。

在這個(gè)兒童 1.5 年的剪輯數(shù)據(jù)集(包括 60 萬(wàn)個(gè)視頻幀和 37500 條轉(zhuǎn)錄話(huà)語(yǔ)配對(duì))上,研究者訓(xùn)練出了一個(gè)模型,即兒童視角對(duì)比學(xué)習(xí)模型 CVCL。

這個(gè)模型實(shí)例化了跨情景的聯(lián)想學(xué)習(xí)形式,確定了單詞和可能的視覺(jué)指示物之間的映射。

這個(gè)模型協(xié)調(diào)了兩個(gè)神經(jīng)網(wǎng)絡(luò)、視覺(jué)編碼器和語(yǔ)言編碼器的對(duì)比目標(biāo),以自監(jiān)督的方式進(jìn)行訓(xùn)練(即僅使用兒童視角的錄音,不使用外部標(biāo)簽),對(duì)比目標(biāo)將視頻幀的嵌入(向量)和時(shí)間上同時(shí)出現(xiàn)的語(yǔ)言話(huà)語(yǔ)結(jié)合在一起(處理同時(shí)出現(xiàn)的視頻幀和語(yǔ)言話(huà)語(yǔ)的嵌入)

當(dāng)然,這個(gè)名為 SAYCam-S 的數(shù)據(jù)集是有限的,因?yàn)樗徊东@了孩子大約 1% 的清醒時(shí)間,錯(cuò)過(guò)了很多他們的經(jīng)歷。

但是盡管如此,CVCL 依然可以從一個(gè)兒童的有限經(jīng)歷中,學(xué)習(xí)到強(qiáng)大的多模態(tài)表征!

團(tuán)隊(duì)成功地證明了,模型獲取了兒童日常經(jīng)歷中存在許多的指涉映射,因而能夠零樣本地概括新的視覺(jué)指涉,并且調(diào)整其中的視覺(jué)和語(yǔ)言概念系統(tǒng)。

評(píng)估習(xí)得的詞義映射

具體來(lái)說(shuō),在訓(xùn)練完成后,團(tuán)隊(duì)評(píng)估了 CVCL 和各種替代模型所學(xué)習(xí)的單詞指涉映射的質(zhì)量。

結(jié)果顯示,CVCL 的分類(lèi)準(zhǔn)確率為 61.6%。

而且圖 2D 顯示,對(duì)于其中 22 個(gè)概念中的 11 個(gè)概念,CVCL 的性能和 CLIP 的誤差在 5% 以?xún)?nèi),但 CLIP 的訓(xùn)練數(shù)據(jù),卻要多出幾個(gè)數(shù)量級(jí)(4 億個(gè)來(lái)自網(wǎng)絡(luò)的圖像-文本對(duì))。

研究結(jié)果顯示,許多最早的單詞所指映射,可以從至少 10 到 100 個(gè)自然出現(xiàn)的單詞-所指對(duì)中獲得。

泛化新的視覺(jué)范例

另外,研究者還評(píng)估了 CVCL 學(xué)到的單詞,是否可以推廣到分布外的視覺(jué)刺激上。

圖 3A 顯示,CVCL 也同時(shí)表現(xiàn)出了對(duì)這些視覺(jué)概念的一些了解,總體準(zhǔn)確率在 34.7%。

顯然,這個(gè)任務(wù)需要更大的概念集,以及額外難度的分布外泛化。

左邊是兩個(gè)隨機(jī)選擇的訓(xùn)練案例,右邊是四個(gè)測(cè)試案例,下面的百分比代表模型識(shí)別此張圖像的準(zhǔn)確度和性能,選取案例從左到右分別是兩個(gè)最高值、中值和最低值??梢钥闯觯?dāng)測(cè)試案例和訓(xùn)練案例在色彩、形狀方面相似度更高時(shí),模型識(shí)別的準(zhǔn)確度也更高

多模態(tài)一致性很好

最后,研究者測(cè)試了 CVCL 的視覺(jué)和語(yǔ)言概念系統(tǒng)的一致性。

例如,如果相比于「球」,「汽車(chē)」的視覺(jué)嵌入和詞嵌入都與「路」更相似,這就表明多模態(tài)對(duì)齊的效果很好。

下圖顯示出,CVCL 視覺(jué)和語(yǔ)言系統(tǒng)的高度對(duì)齊。

圖像和文本之間的關(guān)系,虛線表示每個(gè)概念對(duì)應(yīng)的視覺(jué)質(zhì)心與單詞嵌入之間的距離

不同的視覺(jué)概念在其例子的緊密聚集程度上有所不同。因?yàn)閶雰旱囊暰€會(huì)在距離很近的物體之間游移,就導(dǎo)致模型在區(qū)分「手」和「玩具」時(shí)沒(méi)有形成清晰的參照映射,「汽車(chē)」和「嬰兒床」就有比較好的表現(xiàn)

在每幅圖中,研究者直觀展示了 CVCL 預(yù)測(cè)與使用 t-SNE 的標(biāo)簽示例的比較。

左邊的藍(lán)色點(diǎn)對(duì)應(yīng)屬于一個(gè)特定類(lèi)別的 100 個(gè)幀,右邊的綠色點(diǎn)對(duì)應(yīng)于 100 個(gè)最高的激活幀(基于與 CVCL 中每個(gè)概念嵌入的單詞的余弦相似性)。在每個(gè)圖下面,是每個(gè)概念中屬于一個(gè)或多個(gè)子簇的多個(gè)示例幀,捕捉了單詞嵌入如何與聯(lián)合嵌入空間中的圖像嵌入交互。例如,對(duì)于「樓梯」這個(gè)詞,我們看到一個(gè)簇代表室內(nèi)木制樓梯的圖像,而另一個(gè)主要簇代表室外藍(lán)色樓梯組的圖像。這些圖中所有的 t-SNE 圖都來(lái)自于同一組聯(lián)合圖像和文本嵌入

下圖顯示,模型可以在不同視圖中,定位目標(biāo)所指。

在歸一化注意力圖中,黃色表示注意力最高的區(qū)域。在前兩個(gè)類(lèi)別(球和車(chē))中,我們可以看到模型可以在不同視圖中定位目標(biāo)所指。但是,在下面兩個(gè)類(lèi)別(貓和紙)中,注意力圖有時(shí)會(huì)與所指物錯(cuò)位,這表明定位所指物的能力并不是在所有類(lèi)別中都一致的

當(dāng)然,兒童的學(xué)習(xí)和機(jī)器學(xué)習(xí)模型還是有許多不同的。

但 Lake 團(tuán)隊(duì)的研究,無(wú)疑對(duì)我們有很大的啟發(fā)。

參考資料:

  • https://www.nytimes.com/2024/04/30/science/ai-infants-language-learning.html

  • https://www.theregister.com/2024/05/12/boffins_hope_to_make_ai/ https://www.science.org/doi/10.1126/science.adi1374

本文來(lái)自微信公眾號(hào):新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:人工智能,AI模型

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知