美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

新智元 2024/5/13 14:51:41 責(zé)編：清源

評(píng)論：

【新智元導(dǎo)讀】為訓(xùn)練 AI 模型，紐約州立大學(xué)的一名教授 Brenden Lake，竟讓自己不到 2 歲女兒頭戴相機(jī)收集數(shù)據(jù)！要知道，Meta 訓(xùn) Llama 3 直接用了 15 萬(wàn)億個(gè) token，如果 Lake 真能讓 AI 模型學(xué)習(xí)人類(lèi)幼崽，從有限的輸入中學(xué)習(xí)，那 LLM 的全球數(shù)據(jù)荒豈不是解決了？

為了訓(xùn)練 AI 模型，一位紐約州立大學(xué)的教授，竟然把類(lèi)似 GoPro 的相機(jī)綁在了自己女兒頭上！

雖然聽(tīng)起來(lái)不可思議，但這位教授的行為，其實(shí)是有據(jù)可循的。

美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

要訓(xùn)練出 LLM 背后的復(fù)雜神經(jīng)網(wǎng)絡(luò)，需要海量數(shù)據(jù)。

目前我們訓(xùn)練 LLM 的過(guò)程，一定是最簡(jiǎn)潔、最高效的方式嗎？

肯定不是！科學(xué)家們發(fā)現(xiàn)，蹣跚學(xué)步的人類(lèi)兒童，大腦就像海綿吸水一樣，能迅速形成一個(gè)連貫的世界觀。

美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

雖然 LLM 時(shí)有驚人的表現(xiàn)，但隨著時(shí)間的推移，人類(lèi)兒童會(huì)比模型更聰明、更有創(chuàng)造力！

兒童掌握語(yǔ)言的秘密

如何用更好的方法訓(xùn)練 LLM？

科學(xué)家們苦思不得其解之時(shí)，人類(lèi)幼崽讓他們眼前一亮 ——

他們學(xué)習(xí)語(yǔ)言的方式，堪稱(chēng)是語(yǔ)言習(xí)得的大師。

美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

咱們都知道這樣的故事：把一個(gè)幼年的孩子扔進(jìn)一個(gè)語(yǔ)言文化完全不同的國(guó)家，不出幾個(gè)月，ta 對(duì)于當(dāng)?shù)卣Z(yǔ)言的掌握可能就接近了母語(yǔ)水平。

而大語(yǔ)言模型，就顯得相形見(jiàn)絀了。

首先，它們太費(fèi)數(shù)據(jù)了！

如今訓(xùn)模型的各大公司，快把全世界的數(shù)據(jù)給薅空了。因?yàn)?LLM 的學(xué)習(xí)，需要的是從網(wǎng)絡(luò)和各個(gè)地方挖掘的天文數(shù)字級(jí)的文本。

要讓它們掌握一門(mén)語(yǔ)言，需要喂給它們數(shù)萬(wàn)億個(gè)單詞。

美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

▲ Brenden Lake 和參與這項(xiàng)研究的 NYU 學(xué)者

其次，興師動(dòng)眾地砸了這么多數(shù)據(jù)進(jìn)去，LLM 也未必學(xué)得準(zhǔn)確。

許多 LLM 的輸出，是以一定準(zhǔn)確度預(yù)測(cè)下一個(gè)單詞。而這種準(zhǔn)確度，越來(lái)越令人不安。

形成鮮明對(duì)比的是，要學(xué)會(huì)流利使用一門(mén)語(yǔ)言，兒童可不需要這么多經(jīng)驗(yàn)。

紐約州立大學(xué)研究人類(lèi)和 AI 的心理學(xué)家 Brenden Lake，就盯上了這一點(diǎn)。

他決定，拿自己 1 歲 9 個(gè)月的女兒 Luna 做實(shí)驗(yàn)。

美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

過(guò)去的 11 個(gè)月里，Lake 每周都會(huì)讓女兒戴一個(gè)小時(shí)的相機(jī)，以她的角度記錄玩耍時(shí)的視頻。

通過(guò) Luna 相機(jī)拍攝的視頻，Lake 希望通過(guò)使用孩子接觸到的相同數(shù)據(jù)，來(lái)訓(xùn)練模型。

美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

把 GoPro 綁在蹣跚學(xué)步的女兒身上

雖然目前語(yǔ)言學(xué)家和兒童專(zhuān)家對(duì)于兒童究竟如何習(xí)得語(yǔ)言，并未達(dá)成一致，但 Lake 十分確信：使 LLM 更有效率的秘訣，就藏在兒童的學(xué)習(xí)模式里！

因此，Lake 開(kāi)展了這樣一項(xiàng)研究項(xiàng)目：研究?jī)和趯W(xué)習(xí)第一句話(huà)時(shí)所經(jīng)歷的刺激，以此提高訓(xùn)練 LLM 的效率。

為此，Lake 的團(tuán)隊(duì)需要收集來(lái)自美國(guó)各地的 25 名兒童的視頻和音頻數(shù)據(jù)。

這就有了文章開(kāi)頭的一幕 —— 他們把類(lèi)似 GoPro 的相機(jī)綁在了這些孩子的頭上，包括 Lake 的女兒 Luna。

美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

Lake 解釋道，他們的模型試圖從孩子的角度，將視頻片段和孩子的照顧者所說(shuō)的話(huà)聯(lián)系起來(lái)，方式類(lèi)似于 OpenAI 的 Clip 模型將標(biāo)注和圖像聯(lián)系起來(lái)。

Clip 可以將圖像作為輸入，并根據(jù)圖像-標(biāo)注對(duì)的訓(xùn)練數(shù)據(jù)，輸出一個(gè)描述性標(biāo)注作為建議。

美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

論文地址：https://openai.com/index/clip/

另外，Lake 團(tuán)隊(duì)的模型還可以根據(jù) GoPro 鏡頭的訓(xùn)練數(shù)據(jù)和照顧者的音頻，將場(chǎng)景的圖像作為輸入，然后輸出語(yǔ)言來(lái)描述這個(gè)場(chǎng)景。

而且，模型還可以將描述轉(zhuǎn)換為以前在訓(xùn)練中看到的幀。

乍一聽(tīng)，是不是還挺簡(jiǎn)單的？就是讓模型像人類(lèi)兒童一樣，學(xué)會(huì)將口語(yǔ)和在視頻幀中所觀察到的物體相匹配。

但具體執(zhí)行起來(lái)，還會(huì)面臨很多復(fù)雜的狀況。

比如，孩子們并不一定總是看著被描述的物體或動(dòng)作。

甚至還有更抽象的情況，比如我們給孩子牛奶，但牛奶是裝在不透明的杯子里，這就會(huì)導(dǎo)致關(guān)聯(lián)非常松散。

因而，Lake 解釋說(shuō)：這個(gè)實(shí)驗(yàn)并不是想證明，我們是否可以訓(xùn)練模型將圖像中的對(duì)象與相應(yīng)的單詞相匹配（OpenAI 已經(jīng)證明了這一點(diǎn)）。

美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

相反，團(tuán)隊(duì)想要做的是，希望知道模型是否可以只用兒童可用的稀疏數(shù)據(jù)級(jí)（稀疏到難以置信的程度），就能真的學(xué)習(xí)識(shí)別物體。

可以看到，這和 OpenAI、谷歌、Meta 等大公司構(gòu)建模型的思路完全相反。

要知道，Meta 訓(xùn)練 Llama 3，用了 15 萬(wàn)億個(gè) token。

如果 Lake 團(tuán)隊(duì)的實(shí)驗(yàn)成功，或許全世界共同面臨的 LLM 數(shù)據(jù)荒，就有解了 —— 因?yàn)槟菚r(shí)，訓(xùn)練 LLM 根本就不需要那么多的數(shù)據(jù)！

美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

也就是說(shuō)，新的思路是，讓 AI 模型從有限的輸入中學(xué)習(xí)，然后從我們看到的數(shù)據(jù)中推廣出來(lái)。

我認(rèn)為我們的關(guān)注點(diǎn)，不該局限在從越來(lái)越多的數(shù)據(jù)中訓(xùn)練越來(lái)越大的 LLM。是的，你可以通過(guò)這種方式讓 LLM 具有驚人的性能，但它已經(jīng)離我們所知道的人類(lèi)智能奇妙之處越來(lái)越遠(yuǎn)……

早期實(shí)驗(yàn)已經(jīng)取得成功

早期的實(shí)驗(yàn)結(jié)果，已經(jīng)證明了 Lake 團(tuán)隊(duì)的思路可能是對(duì)的。

今年 2 月，他們?cè)?jīng)用了 61 小時(shí)的視頻片段訓(xùn)出一個(gè)神經(jīng)網(wǎng)絡(luò)，紀(jì)錄一個(gè)幼兒的經(jīng)歷。

研究發(fā)現(xiàn)，模型能夠?qū)⒈辉囌f(shuō)出的各種單詞和短語(yǔ)，與視頻幀中捕獲的體驗(yàn)聯(lián)系起來(lái) —— 只要呈現(xiàn)要給單詞或短語(yǔ)，模型就能回憶起相關(guān)圖像。這篇論文已經(jīng)發(fā)表于 Science。

美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

論文地址：https://www.science.org/doi/10.1126/science.adi1374

Lake 表示，最令人驚喜的是，模型竟然能夠概括出未訓(xùn)練的圖像中的對(duì)象名稱(chēng)！

當(dāng)然，準(zhǔn)確性未必很好。但模型本來(lái)也只是為了驗(yàn)證一個(gè)概念而已。

項(xiàng)目尚未完成，因?yàn)槟Ｐ瓦€沒(méi)有學(xué)到一個(gè)兒童會(huì)知道的一切。

美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

畢竟，它只有 60 小時(shí)左右的帶標(biāo)注的演講，這僅僅是一個(gè)兒童在兩年內(nèi)所習(xí)得經(jīng)驗(yàn)的百分之一。而團(tuán)隊(duì)還需要更多的數(shù)據(jù)，才能搞清什么是可學(xué)習(xí)的。

而且 Lake 也承認(rèn)，第一個(gè)模型使用的方法還是有局限性 ——

僅分析與照顧者話(huà)語(yǔ)相關(guān)的視頻片段，僅僅是鏡頭以每秒 5 幀的速度轉(zhuǎn)化為圖像，只憑這些，AI 并沒(méi)有真正學(xué)會(huì)什么是動(dòng)詞，什么是抽象詞，它獲得的僅僅是關(guān)于世界樣子的靜態(tài)切片。

因?yàn)樗鼘?duì)之前發(fā)生了什么、之后發(fā)生了什么、談話(huà)背景都一無(wú)所知，所以很難學(xué)習(xí)什么是「走」「跑」「跳」。

但以后，隨著建模視頻背后的技術(shù)越來(lái)越成熟，Lake 相信團(tuán)隊(duì)會(huì)構(gòu)建更有效的模型。

如果我們能夠建立一個(gè)真正開(kāi)始習(xí)得語(yǔ)言的模型，它就會(huì)為理解人類(lèi)的學(xué)習(xí)和發(fā)展開(kāi)辟重要的應(yīng)用程序，或許能幫我們理解發(fā)育障礙，或兒童學(xué)習(xí)語(yǔ)言的情況。

最終，這樣的模型還可以用來(lái)測(cè)試數(shù)百萬(wàn)種不同的語(yǔ)言治療法。

話(huà)說(shuō)回來(lái)，孩子究竟是如何通過(guò)自己的眼睛和耳朵，扎實(shí)地掌握一門(mén)語(yǔ)言的呢？

美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

讓我們仔細(xì)看看 Lake 團(tuán)隊(duì)發(fā)在 Science 上的這篇文章。

將單詞和實(shí)物、視覺(jué)圖像聯(lián)系起來(lái)

人類(lèi)兒童如何褪去對(duì)這個(gè)世界的懵懂無(wú)知，習(xí)得知識(shí)？這個(gè)「黑箱」的奧秘，不僅吸引著教育學(xué)家們的不斷求索，也是困于我們每個(gè)人心底關(guān)于個(gè)體智慧來(lái)處的追問(wèn)。

美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

韓國(guó)科幻作家金草葉在《共生假說(shuō)》中寫(xiě)下這樣的設(shè)想：人類(lèi)兒童在幼年時(shí)期所展示出的智慧其實(shí)承載著一個(gè)失落的外星文明，他們選擇用這樣的方式和人類(lèi)共生，可是時(shí)間只有短短的五年，在人類(lèi)長(zhǎng)大擁有真正牢固的記憶之后，便把幼年時(shí)期這段瑰麗的記憶抹去了

也時(shí)常有網(wǎng)友會(huì)在網(wǎng)上分享出，那些「忘記喝孟婆湯」的人類(lèi)幼崽故事。

關(guān)于謎一樣的幼年時(shí)期，那是我們很難說(shuō)清也難以回返的神秘之地，是一種「鄉(xiāng)愁」。就像金草葉寫(xiě)下的」不要離開(kāi)。不要帶走那個(gè)美麗的世界。在我長(zhǎng)大之后，也請(qǐng)留在我身邊。

美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

幼兒究竟是如何將新單詞和特定的物體，或視覺(jué)概念聯(lián)系起來(lái)的？

比如，聽(tīng)到「球」這個(gè)詞時(shí)，兒童是如何想到有彈性的圓形物體的?

美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

為此，Lake 的團(tuán)隊(duì)給一個(gè)兒童戴上了頭戴式攝像機(jī)，追蹤了 ta 從 6 到 25 個(gè)月期間的成長(zhǎng)過(guò)程，記錄了一個(gè) 61 小時(shí)的視覺(jué)語(yǔ)言數(shù)據(jù)流。

在這個(gè)兒童 1.5 年的剪輯數(shù)據(jù)集（包括 60 萬(wàn)個(gè)視頻幀和 37500 條轉(zhuǎn)錄話(huà)語(yǔ)配對(duì)）上，研究者訓(xùn)練出了一個(gè)模型，即兒童視角對(duì)比學(xué)習(xí)模型 CVCL。

美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

這個(gè)模型實(shí)例化了跨情景的聯(lián)想學(xué)習(xí)形式，確定了單詞和可能的視覺(jué)指示物之間的映射。

美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

這個(gè)模型協(xié)調(diào)了兩個(gè)神經(jīng)網(wǎng)絡(luò)、視覺(jué)編碼器和語(yǔ)言編碼器的對(duì)比目標(biāo)，以自監(jiān)督的方式進(jìn)行訓(xùn)練（即僅使用兒童視角的錄音，不使用外部標(biāo)簽），對(duì)比目標(biāo)將視頻幀的嵌入（向量）和時(shí)間上同時(shí)出現(xiàn)的語(yǔ)言話(huà)語(yǔ)結(jié)合在一起（處理同時(shí)出現(xiàn)的視頻幀和語(yǔ)言話(huà)語(yǔ)的嵌入）

當(dāng)然，這個(gè)名為 SAYCam-S 的數(shù)據(jù)集是有限的，因?yàn)樗徊东@了孩子大約 1% 的清醒時(shí)間，錯(cuò)過(guò)了很多他們的經(jīng)歷。

但是盡管如此，CVCL 依然可以從一個(gè)兒童的有限經(jīng)歷中，學(xué)習(xí)到強(qiáng)大的多模態(tài)表征！

團(tuán)隊(duì)成功地證明了，模型獲取了兒童日常經(jīng)歷中存在許多的指涉映射，因而能夠零樣本地概括新的視覺(jué)指涉，并且調(diào)整其中的視覺(jué)和語(yǔ)言概念系統(tǒng)。

評(píng)估習(xí)得的詞義映射

具體來(lái)說(shuō)，在訓(xùn)練完成后，團(tuán)隊(duì)評(píng)估了 CVCL 和各種替代模型所學(xué)習(xí)的單詞指涉映射的質(zhì)量。

結(jié)果顯示，CVCL 的分類(lèi)準(zhǔn)確率為 61.6%。

而且圖 2D 顯示，對(duì)于其中 22 個(gè)概念中的 11 個(gè)概念，CVCL 的性能和 CLIP 的誤差在 5% 以?xún)?nèi)，但 CLIP 的訓(xùn)練數(shù)據(jù)，卻要多出幾個(gè)數(shù)量級(jí)（4 億個(gè)來(lái)自網(wǎng)絡(luò)的圖像-文本對(duì)）。

美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

研究結(jié)果顯示，許多最早的單詞所指映射，可以從至少 10 到 100 個(gè)自然出現(xiàn)的單詞-所指對(duì)中獲得。

泛化新的視覺(jué)范例

另外，研究者還評(píng)估了 CVCL 學(xué)到的單詞，是否可以推廣到分布外的視覺(jué)刺激上。

圖 3A 顯示，CVCL 也同時(shí)表現(xiàn)出了對(duì)這些視覺(jué)概念的一些了解，總體準(zhǔn)確率在 34.7%。

美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

顯然，這個(gè)任務(wù)需要更大的概念集，以及額外難度的分布外泛化。

美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

左邊是兩個(gè)隨機(jī)選擇的訓(xùn)練案例，右邊是四個(gè)測(cè)試案例，下面的百分比代表模型識(shí)別此張圖像的準(zhǔn)確度和性能，選取案例從左到右分別是兩個(gè)最高值、中值和最低值?？梢钥闯觯?dāng)測(cè)試案例和訓(xùn)練案例在色彩、形狀方面相似度更高時(shí)，模型識(shí)別的準(zhǔn)確度也更高

多模態(tài)一致性很好

最后，研究者測(cè)試了 CVCL 的視覺(jué)和語(yǔ)言概念系統(tǒng)的一致性。

例如，如果相比于「球」，「汽車(chē)」的視覺(jué)嵌入和詞嵌入都與「路」更相似，這就表明多模態(tài)對(duì)齊的效果很好。

下圖顯示出，CVCL 視覺(jué)和語(yǔ)言系統(tǒng)的高度對(duì)齊。

美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

圖像和文本之間的關(guān)系，虛線表示每個(gè)概念對(duì)應(yīng)的視覺(jué)質(zhì)心與單詞嵌入之間的距離

美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

不同的視覺(jué)概念在其例子的緊密聚集程度上有所不同。因?yàn)閶雰旱囊暰€會(huì)在距離很近的物體之間游移，就導(dǎo)致模型在區(qū)分「手」和「玩具」時(shí)沒(méi)有形成清晰的參照映射，「汽車(chē)」和「嬰兒床」就有比較好的表現(xiàn)

在每幅圖中，研究者直觀展示了 CVCL 預(yù)測(cè)與使用 t-SNE 的標(biāo)簽示例的比較。

美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

左邊的藍(lán)色點(diǎn)對(duì)應(yīng)屬于一個(gè)特定類(lèi)別的 100 個(gè)幀，右邊的綠色點(diǎn)對(duì)應(yīng)于 100 個(gè)最高的激活幀（基于與 CVCL 中每個(gè)概念嵌入的單詞的余弦相似性）。在每個(gè)圖下面，是每個(gè)概念中屬于一個(gè)或多個(gè)子簇的多個(gè)示例幀，捕捉了單詞嵌入如何與聯(lián)合嵌入空間中的圖像嵌入交互。例如，對(duì)于「樓梯」這個(gè)詞，我們看到一個(gè)簇代表室內(nèi)木制樓梯的圖像，而另一個(gè)主要簇代表室外藍(lán)色樓梯組的圖像。這些圖中所有的 t-SNE 圖都來(lái)自于同一組聯(lián)合圖像和文本嵌入

下圖顯示，模型可以在不同視圖中，定位目標(biāo)所指。

美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

在歸一化注意力圖中，黃色表示注意力最高的區(qū)域。在前兩個(gè)類(lèi)別（球和車(chē)）中，我們可以看到模型可以在不同視圖中定位目標(biāo)所指。但是，在下面兩個(gè)類(lèi)別（貓和紙）中，注意力圖有時(shí)會(huì)與所指物錯(cuò)位，這表明定位所指物的能力并不是在所有類(lèi)別中都一致的

當(dāng)然，兒童的學(xué)習(xí)和機(jī)器學(xué)習(xí)模型還是有許多不同的。

但 Lake 團(tuán)隊(duì)的研究，無(wú)疑對(duì)我們有很大的啟發(fā)。

參考資料：

https://www.nytimes.com/2024/04/30/science/ai-infants-language-learning.html
https://www.theregister.com/2024/05/12/boffins_hope_to_make_ai/ https://www.science.org/doi/10.1126/science.adi1374

本文來(lái)自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

美國(guó)教授用 2 歲女兒訓(xùn) AI 模型登 Science，人類(lèi)幼崽頭戴相機(jī)訓(xùn)練全新 AI

兒童掌握語(yǔ)言的秘密

早期實(shí)驗(yàn)已經(jīng)取得成功

將單詞和實(shí)物、視覺(jué)圖像聯(lián)系起來(lái)

評(píng)估習(xí)得的詞義映射

泛化新的視覺(jué)范例

多模態(tài)一致性很好

相關(guān)文章

將單詞和實(shí)物、視覺(jué)圖像聯(lián)系起來(lái)