首頁 > 科學(xué)探索>科技前沿

連百年梗圖都整明白了，微軟多模態(tài)「宇宙」搞定 IQ 測(cè)試，僅 16 億參數(shù)

新智元 2023/3/4 18:08:13 責(zé)編：夢(mèng)澤

評(píng)論：

微軟亞研院發(fā)布了僅 16 億參數(shù)的多模態(tài)大型語言模型 KOSMOS-1，不僅能看圖回答，還搞定了瑞文智商測(cè)試。

大模型的卷，已經(jīng)不睡覺都趕不上進(jìn)度了......

這不，微軟亞研院剛剛發(fā)布了一個(gè)多模態(tài)大型語言模型（MLLM）—— KOSMOS-1。

連百年梗圖都整明白了，微軟多模態(tài)「宇宙」搞定 IQ 測(cè)試，僅 16 億參數(shù)

論文地址：https://arxiv.org/ pdf / 2302.14045.pdf

論文題目 Language Is Not All You Need，還得源于一句名言。

文中有這么一句話，「我語言的局限，就是我世界的局限?！?奧地利哲學(xué)家 Ludwig Wittgenstein」

連百年梗圖都整明白了，微軟多模態(tài)「宇宙」搞定 IQ 測(cè)試，僅 16 億參數(shù)

那么問題來了......

拿著圖問 KOSMOS-1「是鴨還是兔」能搞明白嗎？這張有 100 多年歷史的梗圖硬是把谷歌 AI 整不會(huì)了。

連百年梗圖都整明白了，微軟多模態(tài)「宇宙」搞定 IQ 測(cè)試，僅 16 億參數(shù)

1899 年，美國(guó)心理學(xué)家 Joseph Jastrow 首次使用「鴨兔圖」來表明感知不僅是人們所看到的，而且是一種心理活動(dòng)。

現(xiàn)在，KOSMOS-1 便能將這種感知和語言模型相結(jié)合。

-圖中是什么？

-像一只鴨子。

-如果不是鴨子，那是什么？

-看起來更像兔子。

-為什么？

-它有兔子的耳朵。

這么一問，KOSMOS-1 真有點(diǎn)像微軟版的 ChatGPT 了。

連百年梗圖都整明白了，微軟多模態(tài)「宇宙」搞定 IQ 測(cè)試，僅 16 億參數(shù)

不僅如此，Kosmos-1 還能理解圖像、文本、帶有文本的圖像、OCR、圖像說明、視覺 QA。

甚至 IQ 測(cè)試也不在話下。

「宇宙」無所不能

Kosmos 來源希臘一詞 cosmos，有「宇宙」之意。

據(jù)論文介紹，最新 Kosmos-1 模型是一個(gè)多模態(tài)大型語言模型。

其主干是一個(gè)基于 Transformer 的因果語言模型，除了文本之外，其他模態(tài)，如視覺、音頻都可以嵌入模型。

連百年梗圖都整明白了，微軟多模態(tài)「宇宙」搞定 IQ 測(cè)試，僅 16 億參數(shù)

Transformer 解碼器用作多模態(tài)輸入的通用接口，因此它能感知一般模態(tài)，進(jìn)行上下文學(xué)習(xí)，并遵循指令。

Kosmos-1 在語言和多模態(tài)任務(wù)上取得了令人印象深刻的表現(xiàn)，無需進(jìn)行微調(diào)，其中包括帶有文字指示的圖像識(shí)別、視覺問答和多模態(tài)對(duì)話。

如下是 Kosmos-1 生成一些例子式樣。

圖片解釋、圖片問答、網(wǎng)頁問題回答，簡(jiǎn)單數(shù)字公式，以及數(shù)字識(shí)別。

連百年梗圖都整明白了，微軟多模態(tài)「宇宙」搞定 IQ 測(cè)試，僅 16 億參數(shù)

那么，Kosmos-1 是在哪些數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的呢？

訓(xùn)練所用的數(shù)據(jù)庫，包括文本語料庫、圖像-字幕對(duì)、圖像和文本交叉數(shù)據(jù)集。

文本語料庫取自 The Pile 和 Common Crawl（CC）；

圖像-字幕對(duì)的來源為 English LAION-2B、LAION-400M、COYO-700M 和 Conceptual Captions；

文本交叉數(shù)據(jù)集的來源是 Common Crawl snapshot。

數(shù)據(jù)庫有了，接下來就是對(duì)模型進(jìn)行預(yù)訓(xùn)練了。

MLLM 組件有 24 層、2,048 個(gè)隱藏維度、8,192 個(gè) FFN 和 32 個(gè)注意力頭頭，產(chǎn)生了大約 1.3B 的參數(shù)。

為了保證優(yōu)化的穩(wěn)定性，采用 Magneto 初始化；為了更快地收斂，圖像表示是從一個(gè)預(yù)先訓(xùn)練好的具有 1024 個(gè)特征維度的 CLIP ViT-L / 14 模型獲取的。在訓(xùn)練過程中，圖像被預(yù)處理成 224×224 分辨率，CLIP 模型的參數(shù)除了最后一層均被凍結(jié)。

KOSMOS-1 的參數(shù)總量約為 16 億。

為了使 KOSMOS-1 更好地與指令保持一致，對(duì)其進(jìn)行了只用語言的指令調(diào)整 [LHV+23, HSLS22]，即用指令數(shù)據(jù)繼續(xù)訓(xùn)練模型，該指令數(shù)據(jù)是僅有的語言數(shù)據(jù)，與訓(xùn)練語料庫混合。

該調(diào)優(yōu)過程是按照語言建模的方式進(jìn)行的，選取的指令數(shù)據(jù)集為 Unnatural Instructions [HSLS22] 和 FLANv2 [LHV+23]。

結(jié)果顯示，指令跟隨能力的提高可以跨模式轉(zhuǎn)移。

總之，MLLM 可以從跨模態(tài)遷移中獲益，將知識(shí)從語言遷移到多模態(tài)，反之亦然；

5 大類 10 個(gè)任務(wù)，都拿捏了

一個(gè)模型好不好使，拿出來溜溜就知道了。

研究團(tuán)隊(duì)從多角度進(jìn)行實(shí)驗(yàn)來評(píng)價(jià) KOSMOS-1 的性能，包括 5 大類十項(xiàng)任務(wù)：

1 語言任務(wù)（語言理解、語言生成、無 OCR 的文本分類）

2 多模態(tài)轉(zhuǎn)移（常識(shí)推理）

3 非語言推理（IQ 測(cè)試）

4 感知-語言任務(wù)（圖像說明、視覺問答、網(wǎng)頁問答）

5 視覺任務(wù)（零樣本圖像分類、帶描述的零樣本圖像分類）

無 OCR 的文本分類

這是一種不依賴于光學(xué)字符識(shí)別（OCR）的專注于文本和圖像的理解任務(wù)。

KOSMOS-1 對(duì) HatefulMemes 和對(duì) Rendered SST-2 測(cè)試集的準(zhǔn)確率均高于優(yōu)于其他模型。

而且 Flamingo 明確提供 OCR 文本到提示中，KOSMOS-1 并沒有訪問任何外部工具或資源，這展示了 KOSMOS-1 閱讀和理解渲染的圖像中的文本的內(nèi)在能力。

連百年梗圖都整明白了，微軟多模態(tài)「宇宙」搞定 IQ 測(cè)試，僅 16 億參數(shù)

IQ 測(cè)試

瑞文智力測(cè)試是評(píng)估非語言的最常用測(cè)試之一。

連百年梗圖都整明白了，微軟多模態(tài)「宇宙」搞定 IQ 測(cè)試，僅 16 億參數(shù)

KOSMOS-1 在沒有進(jìn)行微調(diào)時(shí)準(zhǔn)確率比隨機(jī)選擇提高了 5.3%，經(jīng)過微調(diào)后則提高了 9.3%，表明其具有感知非語言環(huán)境中的抽象概念模式的能力。

這是首次有模型能夠完成零樣本 Raven 測(cè)試，證明了 MLLMs 通過將感知與語言模型結(jié)合起來進(jìn)行零樣本非言語推理的潛力。

連百年梗圖都整明白了，微軟多模態(tài)「宇宙」搞定 IQ 測(cè)試，僅 16 億參數(shù)

圖像說明

KOSMOS-1 在 COCO 和 Flickr30k 測(cè)試中的零樣本性能均表現(xiàn)優(yōu)秀，相比其他模型，其得分更高，但采用的參數(shù)量更小。

連百年梗圖都整明白了，微軟多模態(tài)「宇宙」搞定 IQ 測(cè)試，僅 16 億參數(shù)

在少樣本性能測(cè)試中，得分隨著 k 值增大有所增加。

連百年梗圖都整明白了，微軟多模態(tài)「宇宙」搞定 IQ 測(cè)試，僅 16 億參數(shù)

零樣本圖像分類

給定一個(gè)輸入圖像，并將該圖像與提示「The photo of the」連接起來。然后，輸入模型以獲得圖像的類別名稱。

連百年梗圖都整明白了，微軟多模態(tài)「宇宙」搞定 IQ 測(cè)試，僅 16 億參數(shù)

通過在 ImageNet [DDS+09] 上評(píng)估該模型，在有約束和無約束的條件下，KOSMOS-1 的圖像歸類效果都明顯優(yōu)于 GIT [WYH+22]，展現(xiàn)了完成視覺任務(wù)的強(qiáng)大能力。

連百年梗圖都整明白了，微軟多模態(tài)「宇宙」搞定 IQ 測(cè)試，僅 16 億參數(shù)

常識(shí)推理

視覺常識(shí)推理任務(wù)要求模型理解現(xiàn)實(shí)世界中日常物體的屬性，如顏色、大小和形狀，這些任務(wù)是具有挑戰(zhàn)性的，因?yàn)樗鼈兛赡苄枰任谋局懈嗟年P(guān)于物體屬性的信息。

結(jié)果顯示，KOSMOS-1 在尺寸和顏色方面的推理能力都明顯好于 LLM 模型。這主要是因?yàn)?KOSMOS-1 具備多模態(tài)遷移能力，從而能夠?qū)⒁曈X知識(shí)運(yùn)用到語言任務(wù)中，而不必像 LLM 那樣必須依靠文本知識(shí)和線索來推理。

連百年梗圖都整明白了，微軟多模態(tài)「宇宙」搞定 IQ 測(cè)試，僅 16 億參數(shù)

對(duì)于微軟 Kosmos-1，網(wǎng)友稱贊道，未來 5 年，我可以看到一個(gè)高級(jí)機(jī)器人瀏覽網(wǎng)絡(luò)，并僅通過視覺方式基于人類的文本輸入來工作。真是有趣的時(shí)代。

連百年梗圖都整明白了，微軟多模態(tài)「宇宙」搞定 IQ 測(cè)試，僅 16 億參數(shù)

參考資料：

https://arxiv.org/pdf/2302.14045.pdf

本文來自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

連百年梗圖都整明白了，微軟多模態(tài)「宇宙」搞定 IQ 測(cè)試，僅 16 億參數(shù)

「宇宙」無所不能

5 大類 10 個(gè)任務(wù)，都拿捏了

無 OCR 的文本分類

IQ 測(cè)試

圖像說明

零樣本圖像分類

常識(shí)推理

相關(guān)文章

連百年梗圖都整明白了，微軟多模態(tài)「宇宙」搞定 IQ 測(cè)試，僅 16 億參數(shù)