港大字節(jié)提出多模態(tài)大模型新范式，模擬人類(lèi)先感知后認(rèn)知，精確定位圖中物體

量子位 2024/5/27 15:46:53 責(zé)編：清源

評(píng)論：

當(dāng)前，多模態(tài)大模型 （MLLM）在多項(xiàng)視覺(jué)任務(wù)上展現(xiàn)出了強(qiáng)大的認(rèn)知理解能力。然而大部分多模態(tài)大模型局限于單向的圖像理解，難以將理解的內(nèi)容映射回圖像上。

比如，模型能輕易說(shuō)出圖中有哪些物體，但無(wú)法將物體在圖中準(zhǔn)確標(biāo)識(shí)出來(lái)。

定位能力的缺失直接限制了多模態(tài)大模型在圖像編輯，自動(dòng)駕駛，機(jī)器人控制等下游領(lǐng)域的應(yīng)用。

針對(duì)這一問(wèn)題，港大和字節(jié)跳動(dòng)商業(yè)化團(tuán)隊(duì)的研究人員提出了一種新范式 Groma——

通過(guò)區(qū)域性圖像編碼來(lái)提升多模態(tài)大模型的感知定位能力。

在融入定位后，Groma 可以將文本內(nèi)容和圖像區(qū)域直接關(guān)聯(lián)起來(lái)，從而顯著提升對(duì)話(huà)的交互性和指向性。

港大字節(jié)提出多模態(tài)大模型新范式，模擬人類(lèi)先感知后認(rèn)知，精確定位圖中物體

核心思路

如何賦予多模態(tài)大模型定位物體的能力，乃至于將文字內(nèi)容和圖像區(qū)域關(guān)聯(lián)起來(lái)，做到“言之有物”，是當(dāng)前一大研究熱點(diǎn)。

常見(jiàn)的做法是微調(diào)大語(yǔ)言模型使其直接輸出物體坐標(biāo)。然而這種方法卻有著諸多限制：

1、在文本上預(yù)訓(xùn)練的大語(yǔ)言模型本身不具備空間理解能力，僅依靠少量數(shù)據(jù)微調(diào)很難精準(zhǔn)定位物體。

2、定位任務(wù)對(duì)輸入圖像的分辨率有較高要求，但提高分辨率會(huì)顯著增加多模態(tài)大模型的計(jì)算量。

3、大語(yǔ)言模型的輸出形式不適合處理精細(xì)的定位任務(wù)，比如分割。

基于這些考慮，Groma 提出將定位轉(zhuǎn)移到多模態(tài)大模型的 vision tokenizer 中，由 vision tokenizer 發(fā)現(xiàn)并定位潛在的物體，再交給大語(yǔ)言模型識(shí)別。

港大字節(jié)提出多模態(tài)大模型新范式，模擬人類(lèi)先感知后認(rèn)知，精確定位圖中物體

同時(shí)，這樣的設(shè)計(jì)也充分利用了 vision tokenizer 本身的空間理解能力，而無(wú)需外接專(zhuān)家模型（比如 SAM）來(lái)輔助定位，從而避免了外接模型的冗余。

具體而言，Groma 在全局圖像編碼的基礎(chǔ)上，引入了區(qū)域編碼來(lái)實(shí)現(xiàn)定位功能 —— 如下圖所示，Groma 先利用 Region Proposer 定位潛在的物體，再通過(guò) Region Encoder 將定位到的區(qū)域逐一編碼成 region token。

而大語(yǔ)言模型則可以根據(jù) region token 的語(yǔ)意判斷其對(duì)應(yīng)的區(qū)域，并通過(guò)在輸出中插入 region token 來(lái)達(dá)成類(lèi)似超鏈接的效果，實(shí)現(xiàn) visually grounded conversation。

同樣地，用戶(hù)指定的區(qū)域也可以通過(guò) Region Encoder 編碼成相應(yīng)的 region token，并插入到用戶(hù)指令中，從而讓多模態(tài)模型能關(guān)注到指定的區(qū)域并產(chǎn)生指向性的回答。

港大字節(jié)提出多模態(tài)大模型新范式，模擬人類(lèi)先感知后認(rèn)知，精確定位圖中物體

為了提升定位的魯棒性和準(zhǔn)確性，Groma 采用了超過(guò) 8M 的數(shù)據(jù)（包括 SA1B）來(lái)預(yù)訓(xùn)練 Region Proposer。因此其產(chǎn)生的 proposal 不僅包括常見(jiàn)的物體，也涵蓋了物體的組成部分以及更廣闊的背景等要素。

此外，得益于分離式的設(shè)計(jì)，Groma 可以采用高分辨率特征圖用于 Region Proposer / Encoder 的輸入，并采用低分辨率的特征圖用于大模型輸入，從而在降低計(jì)算量的同時(shí)又不損失定位性能。

實(shí)驗(yàn)結(jié)果

Groma 在傳統(tǒng)的 Grounding Benchmarks 上表現(xiàn)出了超越 MiniGPT-v2 和 Qwen-VL 的性能。

港大字節(jié)提出多模態(tài)大模型新范式，模擬人類(lèi)先感知后認(rèn)知，精確定位圖中物體

同時(shí)，Groma 在多模態(tài)大模型通用的 VQA Benchmark (LLaVA-COCO) 驗(yàn)證了其對(duì)話(huà)和推理能力。

港大字節(jié)提出多模態(tài)大模型新范式，模擬人類(lèi)先感知后認(rèn)知，精確定位圖中物體

在可視化的對(duì)比中，Groma 也表現(xiàn)出了更高的 recall 和更少的幻覺(jué)。

港大字節(jié)提出多模態(tài)大模型新范式，模擬人類(lèi)先感知后認(rèn)知，精確定位圖中物體

此外，Groma 還支持融合對(duì)話(huà)能力和定位能力的 referential dialogue 以及 grounded chat。

港大字節(jié)提出多模態(tài)大模型新范式，模擬人類(lèi)先感知后認(rèn)知，精確定位圖中物體

得益于大語(yǔ)言模型強(qiáng)大的認(rèn)知推理能力，多模態(tài)大模型在視覺(jué)理解任務(wù)上表現(xiàn)突出。

然而一些傳統(tǒng)的視覺(jué)任務(wù)，如檢測(cè)分割、深度估計(jì)等，更多依賴(lài)視覺(jué)感知能力，這恰恰是大語(yǔ)言模型所缺乏的。

Groma 在這個(gè)問(wèn)題上提供了一種新的解決思路，即把感知和認(rèn)知解耦開(kāi)來(lái)，由 vision tokenizer 負(fù)責(zé)感知，大語(yǔ)言模型負(fù)責(zé)認(rèn)知。

這種先感知后認(rèn)知的形式除了更符合人類(lèi)的視覺(jué)過(guò)程，也避免了重新訓(xùn)練大語(yǔ)言模型的計(jì)算開(kāi)銷(xiāo)。

5 月 15 日，字節(jié)跳動(dòng)剛剛公布了自研的豆包大模型，提供多模態(tài)能力，下游支持豆包 App、扣子、即夢(mèng)等 50 + 業(yè)務(wù)，并通過(guò)火山引擎開(kāi)放給企業(yè)客戶(hù)，助力企業(yè)提升效率、加速智能化創(chuàng)新。目前，豆包 App 已成為中國(guó)市場(chǎng)用戶(hù)量最大的 AIGC 應(yīng)用。字節(jié)跳動(dòng)正持續(xù)加大對(duì)頂尖人才和前沿技術(shù)的投入力度，參與行業(yè)頂尖的技術(shù)挑戰(zhàn)和攻堅(jiān)。

項(xiàng)目網(wǎng)站：

https://groma-mllm.github.io

論文鏈接：

https://arxiv.org/abs/2404.13013

開(kāi)源代碼：

https://github.com/FoundationVision/Groma

本文來(lái)自微信公眾號(hào)：量子位（ID：QbitAI），作者：允中

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

港大字節(jié)提出多模態(tài)大模型新范式，模擬人類(lèi)先感知后認(rèn)知，精確定位圖中物體

核心思路

實(shí)驗(yàn)結(jié)果

相關(guān)文章

港大字節(jié)提出多模態(tài)大模型新范式，模擬人類(lèi)先感知后認(rèn)知，精確定位圖中物體