GPT-4V 都搞不明白的未來(lái)推理有解法了！來(lái)自華科大 & 上科大

量子位 2023/12/17 21:26:29 責(zé)編：問(wèn)舟

評(píng)論：

多模態(tài)大語(yǔ)言模型展現(xiàn)了強(qiáng)大的圖像理解和推理能力。但要讓它們基于當(dāng)前觀測(cè)來(lái)對(duì)未來(lái)事件進(jìn)行預(yù)測(cè)推理仍然非常困難。

即便是當(dāng)前最強(qiáng)大的 GPT-4V（如下圖所示），也無(wú)法很好地解決這一問(wèn)題。

GPT-4V 都搞不明白的未來(lái)推理有解法了！來(lái)自華科大 & 上科大

△ GPT-4V 的錯(cuò)誤案例

現(xiàn)在，華科大和上科大團(tuán)隊(duì)提出了一個(gè)賦予多模態(tài)大語(yǔ)言模型前瞻性思維的學(xué)習(xí)范式，并基于這一范式構(gòu)建了多模態(tài)大語(yǔ)言模型 Merlin（梅林）。

Merlin（梅林）是亞瑟王傳說(shuō)中的一個(gè)傳奇人物，以其強(qiáng)大的魔法和智慧而聞名于亞瑟王傳說(shuō)。傳說(shuō)中梅林擁有預(yù)見(jiàn)未來(lái)的能力，并對(duì)命運(yùn)有著深刻的理解。

GPT-4V 都搞不明白的未來(lái)推理有解法了！來(lái)自華科大 & 上科大

來(lái)看看它具體是如何做的？

注：人類(lèi)可以根據(jù)當(dāng)前觀測(cè)狀態(tài)來(lái)推理出即將或者接下來(lái)一段時(shí)間可能會(huì)發(fā)生的事件，我們將這一能力稱(chēng)為前瞻性思維。

一個(gè)簡(jiǎn)單的例子：

當(dāng)你在電視上觀看 NBA 球賽時(shí)，你可以根據(jù)場(chǎng)上不同球員的狀態(tài)來(lái)判斷接下來(lái)可能會(huì)出現(xiàn)的場(chǎng)景。

比如當(dāng)一名進(jìn)攻球員在持球突破防守人之后，我們有理由判斷這名球員即將沖到籃下進(jìn)行上籃或者灌籃。

再比如當(dāng)持球人在三分線停下并面向籃筐時(shí)，我們則有理由預(yù)測(cè)這名球員即將進(jìn)行三分射籃（當(dāng)然也有可能是假動(dòng)作為了晃開(kāi)防守人進(jìn)行突破）。

Merlin 大模型就可以進(jìn)行此類(lèi)預(yù)測(cè)。

方法介紹

為了探究如何賦予激發(fā)多模態(tài)大語(yǔ)言模型的前瞻性思維。

我們首先深入分析了人類(lèi)是如何進(jìn)行未來(lái)事件的預(yù)測(cè)的。

我們將人類(lèi)進(jìn)行未來(lái)事件的推理預(yù)測(cè)視為一個(gè)兩階段的系統(tǒng)。

首先一階段我們會(huì)對(duì)當(dāng)前場(chǎng)景進(jìn)行觀測(cè)，觀測(cè)過(guò)程當(dāng)中重點(diǎn)捕捉相關(guān)主體的動(dòng)態(tài)線索，第二階段我們的大腦會(huì)根據(jù)這個(gè)獲取的動(dòng)態(tài)線索來(lái)分析主體的行為模式（比如奔行走或者奔跑等）及行為意圖，進(jìn)而推理出即將可能發(fā)生的事件。

對(duì)標(biāo)多模態(tài)大語(yǔ)言模型，我們認(rèn)為第二階段是可以較好地完成的，這得益于大語(yǔ)言模型強(qiáng)大的邏輯推理能力。

所以問(wèn)題出在了第一階段，也就是當(dāng)前的多模態(tài)大語(yǔ)言模型難以成功捕獲相關(guān)主體的動(dòng)態(tài)信息，進(jìn)而限制了其對(duì)于未來(lái)事件推理的能力。

得到這一結(jié)論之后，接下來(lái)我們要做就是探究如何讓多模態(tài)大語(yǔ)言模型學(xué)會(huì)從當(dāng)前觀測(cè)中捕捉相關(guān)主體的動(dòng)態(tài)線索信息。

為了實(shí)現(xiàn)這一目標(biāo)，一個(gè)直接的方案就是讓多模態(tài)大語(yǔ)言模型學(xué)習(xí)預(yù)測(cè)下一幀的全部信息（也就是以重建下一幀為優(yōu)化目標(biāo)）。

不過(guò)這么做一方面學(xué)習(xí)難度較大，另一方面圖像或者視頻序列存在大量的冗余視覺(jué)信息，這并不利于模型學(xué)會(huì)捕獲對(duì)應(yīng)主體的動(dòng)態(tài)信息。

基于上述分析，本文提出了一個(gè)以“軌跡”這一結(jié)構(gòu)化表示作為優(yōu)化目標(biāo)來(lái)建立過(guò)去與未來(lái)之間的動(dòng)態(tài)關(guān)聯(lián)。我們認(rèn)為以軌跡作為優(yōu)化目標(biāo)有以下幾點(diǎn)好處：

（1）軌跡作為一種高度結(jié)構(gòu)化的表征具有較強(qiáng)的信息凝練性，能夠幫助模型有效地提取出主體在連續(xù)動(dòng)作中的關(guān)鍵動(dòng)態(tài)信息，從而減少了對(duì)冗余視覺(jué)信息的學(xué)習(xí)需求，計(jì)算成本更低。

（2）軌跡可以很自然地將過(guò)去和未來(lái)關(guān)聯(lián)在一起，通過(guò)學(xué)習(xí)預(yù)測(cè)主體的軌跡，多模態(tài)大語(yǔ)言模型必須學(xué)會(huì)精確地關(guān)注對(duì)應(yīng)的主體在不同幀中的對(duì)應(yīng)位置，可以極大地增強(qiáng)模型多圖多身份 (Id) 的對(duì)齊能力。

基于這些優(yōu)點(diǎn)，我們?cè)O(shè)計(jì)了一個(gè)新型的學(xué)習(xí)框架，它專(zhuān)注于從多模態(tài)輸入（如圖像、視頻和文本）中提取和理解主體的運(yùn)動(dòng)軌跡并進(jìn)行預(yù)測(cè)。此框架具體如下：

GPT-4V 都搞不明白的未來(lái)推理有解法了！來(lái)自華科大 & 上科大

受到當(dāng)前主流 LLM 學(xué)習(xí)范式的啟發(fā)，我們也構(gòu)建了一個(gè)兩階段的學(xué)習(xí)范式，分別為前瞻思維預(yù)訓(xùn)練（Foresight Pre-Training, FPT）以及前瞻思維指令微調(diào)（Foresight Instruction-Tuning, FIT）。

在 FPT 中，我們首先會(huì)輸入包含數(shù)幀圖片的視覺(jué)上下文 tokens 給模型，然后我們會(huì)給予相關(guān)主體的第一幀的初始觀測(cè)（初始位置，表觀描述或者是動(dòng)作描述），接著我們要求模型需要根據(jù)初始觀測(cè)來(lái)預(yù)測(cè)出對(duì)應(yīng)主體的整條軌跡。

通過(guò)學(xué)習(xí)預(yù)測(cè)整條軌跡，模型必須學(xué)會(huì)正確關(guān)注多圖中的對(duì)應(yīng)主體并捕捉其動(dòng)態(tài)信息。

而在 FIT 中，則會(huì)加入一些相關(guān)的 user prompt 來(lái)進(jìn)行關(guān)于相關(guān)主體的對(duì)話。

值得注意的是，為了在這一階段激發(fā)模型的前瞻性思維，我們也設(shè)計(jì)了一種以“軌跡”為核心的指令交互形式，我們將其稱(chēng)之為軌跡思維鏈技術(shù)（Trajectory Chain-of-Thought，T-CoT）。

具體來(lái)說(shuō)，當(dāng)和模型進(jìn)行對(duì)話時(shí)，我們會(huì)要求模型將提及的相關(guān)主體的軌跡一并輸出（如上圖所示）。

通過(guò)輸出整條軌跡，強(qiáng)制要求模型關(guān)注多圖中的對(duì)應(yīng)主體，為后續(xù)的未來(lái)事件推理提供足夠的動(dòng)態(tài)信息。更多方法細(xì)節(jié)，請(qǐng)閱讀論文。

數(shù)據(jù)構(gòu)造

設(shè)計(jì)好了我們的學(xué)習(xí)范式之后，接下來(lái)更重要的是構(gòu)建合適的數(shù)據(jù)來(lái)讓模型進(jìn)行學(xué)習(xí)，我們基于現(xiàn)在市面上開(kāi)源的數(shù)據(jù)精心構(gòu)建了一整套多任務(wù)學(xué)習(xí)數(shù)據(jù)，數(shù)據(jù)分布具體如下：

主要包括 Caption，Referring，Detection，Tracking，Reasoning 以及 Dialogue 數(shù)據(jù) * 表示數(shù)據(jù)只用于指令微調(diào)階段（FIT）。

GPT-4V 都搞不明白的未來(lái)推理有解法了！來(lái)自華科大 & 上科大

這里梅林首次使用了由 tracking 數(shù)據(jù)構(gòu)造的 FPT 數(shù)據(jù)來(lái)賦予模型軌跡感知及預(yù)測(cè)能力。

另一方面，我們也提出了精確任務(wù)及輸出形式提示（Precise Definition of Task Prompt and Answer Format）技術(shù)：

通過(guò)告訴大模型具體的任務(wù)以及輸出形式來(lái)避免多任務(wù)學(xué)習(xí)之間的沖突以及對(duì)通用多模態(tài)能力的損害。

我們后續(xù)的實(shí)驗(yàn)也表明采用這一技術(shù)可以讓大模型兼顧學(xué)習(xí)多任務(wù)專(zhuān)有能力以及通用多模態(tài)能力。

能力展示

結(jié)合上述兩個(gè)學(xué)習(xí)過(guò)程以及構(gòu)建的高質(zhì)量數(shù)據(jù)，我們搭建了一個(gè)全新的通用多模態(tài)大語(yǔ)言模型，梅林（Merlin）。

Merlin 可以支持單圖或多幀圖像序列的輸入，可以完成包括檢測(cè)，跟蹤，REC，REG 等一系列任務(wù)。

同時(shí)得益于我們提出的 FPT 以及 FIT，Merlin 展現(xiàn)了強(qiáng)大基于軌跡的未來(lái)推理能力，這里我們挑一些 cases 來(lái)展示 Merlin 的能力，更多的測(cè)試結(jié)果請(qǐng)閱讀我們的論文以及后續(xù)開(kāi)放的 demo。

實(shí)驗(yàn)分析

為了全面評(píng)測(cè) Merlin 的各方面能力，我們?cè)O(shè)計(jì)了一系列性能比較試驗(yàn)以及性質(zhì)探究實(shí)驗(yàn)，這里我們著重挑選幾個(gè)有啟發(fā)性的實(shí)驗(yàn)來(lái)進(jìn)行分享，更多實(shí)驗(yàn)細(xì)節(jié)，請(qǐng)閱讀我們的論文。

1、未來(lái)推理（Future Reasoning）評(píng)測(cè)

由于當(dāng)前領(lǐng)域內(nèi)并沒(méi)有成熟的可以對(duì)多模態(tài)大語(yǔ)言模型進(jìn)行評(píng)測(cè)的 benchmark，所以本工作基于 MMBench 搭建了一套新的 Future Reasoning Benchmark。

在這一 benchmark 上，Merlin 顯著超越了現(xiàn)有的主流多模態(tài)大模型，展現(xiàn)了強(qiáng)大的未來(lái)推理能力。

GPT-4V 都搞不明白的未來(lái)推理有解法了！來(lái)自華科大 & 上科大

2、軌跡關(guān)聯(lián)及預(yù)測(cè)評(píng)測(cè)

由于 Merlin 將基于初始觀測(cè)進(jìn)行相關(guān)主體軌跡預(yù)測(cè)作為預(yù)訓(xùn)練中的一項(xiàng)核心學(xué)習(xí)目標(biāo)，為了更全面的評(píng)測(cè)這一學(xué)習(xí)情況，我們重點(diǎn)選擇了 tracking 這一下游任務(wù)來(lái)進(jìn)行評(píng)測(cè)。

這是由于軌跡關(guān)聯(lián)是 tracking 任務(wù)中的一個(gè)核心子任務(wù)，tracking 的評(píng)測(cè)指標(biāo)可以一定程度上反應(yīng)大模型的多圖多 id 的對(duì)齊能力。

GPT-4V 都搞不明白的未來(lái)推理有解法了！來(lái)自華科大 & 上科大

從結(jié)果可以看到 Merlin 作為一個(gè)通用多模態(tài)大語(yǔ)言模型，在 tarcking 任務(wù)上甚至超越了一些專(zhuān)家模型，同時(shí)值得注意的是這也是多模態(tài)大語(yǔ)言模型首次可以執(zhí)行 tracking 相關(guān)的任務(wù)。

3、幻覺(jué)評(píng)測(cè)

幻覺(jué)問(wèn)題是大模型領(lǐng)域的一個(gè)重要研究課題，由于多模態(tài)大語(yǔ)言模型引入了視覺(jué)模態(tài)，由主體描述和對(duì)應(yīng)的視覺(jué)信息無(wú)法準(zhǔn)確對(duì)齊而導(dǎo)致的 bias 也進(jìn)一步帶來(lái)了更加嚴(yán)重的幻覺(jué)。

本文中我們?cè)?POPE 上對(duì) Merlin 進(jìn)行了幻覺(jué)評(píng)測(cè)來(lái)評(píng)估模型的圖文之間的對(duì)齊能力。如下表所示：

GPT-4V 都搞不明白的未來(lái)推理有解法了！來(lái)自華科大 & 上科大

可以看到，Merlin 展現(xiàn)了強(qiáng)大的抗幻覺(jué)能力，顯著領(lǐng)先當(dāng)前的主流多模態(tài)大語(yǔ)言模型，這證明了我們提出的前瞻性思維訓(xùn)練范式可以增強(qiáng)模型的“識(shí)圖”能力，讓模型減少對(duì)圖片內(nèi)容的誤識(shí)別以及圖文之間的不一致問(wèn)題。

4、多模態(tài)綜合性能評(píng)測(cè)

Merlin 同樣在當(dāng)前的主流多模態(tài)大語(yǔ)言模型綜合能力（包括 MMBench 以及 MMVet）以及視覺(jué)問(wèn)答能力（包括 GQA 以及 VisWiz）評(píng)測(cè) Benchmark 上進(jìn)行了評(píng)測(cè)。

評(píng)測(cè)結(jié)果表明 Merlin 都取得了非常有競(jìng)爭(zhēng)力的結(jié)果，展現(xiàn)了 Merlin 強(qiáng)大的通用綜合能力。

GPT-4V 都搞不明白的未來(lái)推理有解法了！來(lái)自華科大 & 上科大

5、可視化分析

為了更直觀的展現(xiàn) Merlin 對(duì)于動(dòng)態(tài)信息線索的捕捉情況，本文也進(jìn)行了一個(gè)有趣的可視化實(shí)驗(yàn)，對(duì)于一個(gè)具體的對(duì)話問(wèn)答，我們將模型輸出的軌跡坐標(biāo)的 word embedding 與多幀圖片的視覺(jué) tokens 之間的注意力圖進(jìn)行了可視化，如下圖所示：

GPT-4V 都搞不明白的未來(lái)推理有解法了！來(lái)自華科大 & 上科大

我們可以看到，模型輸出的估計(jì)坐標(biāo)的 word embedding 可以準(zhǔn)確的關(guān)注到對(duì)應(yīng)幀中的對(duì)應(yīng)目標(biāo)主體。

這個(gè)可視化結(jié)果也進(jìn)一步證明了“軌跡”是一個(gè)非常好的中間表示來(lái)幫助多模態(tài)大語(yǔ)言模型建立起語(yǔ)言描述和多幀圖像對(duì)應(yīng)主體之間的動(dòng)態(tài)關(guān)聯(lián)。

這也從另一個(gè)角度解釋了為什么 Merlin 具有強(qiáng)大的多模態(tài)綜合能力以及抗幻覺(jué)能力。

思考和總結(jié)

Merlin 這一工作向我們展示了“軌跡”這一結(jié)構(gòu)化表示在幫助多模態(tài)大語(yǔ)言模型具備前瞻性思維中的重要作用。

從這一點(diǎn)出發(fā)我們可以進(jìn)一步思考回歸框（bounding box）以及軌跡（trajectory）究竟在多模態(tài)大語(yǔ)言模型的學(xué)習(xí)中究竟起到了什么樣的作用 ——

是作為一種中間形式還是可以作為一種單獨(dú)的學(xué)習(xí)優(yōu)化目標(biāo)？

另一方面現(xiàn)有的坐標(biāo)編碼是否合理，有沒(méi)有什么更加適配自然語(yǔ)言的表示形式呢？

我想這些目前都還沒(méi)有標(biāo)準(zhǔn)答案，需要各位研究者們進(jìn)一步深入地探索。最后希望 Merlin 這個(gè)工作能給多模態(tài)大模型社區(qū)帶來(lái)一些新的思考和認(rèn)知，也歡迎大家持續(xù)關(guān)注我們的工作，多多交流。

論文：

https://arxiv.org/pdf/2312.00589.pdf

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

GPT-4V 都搞不明白的未來(lái)推理有解法了！來(lái)自華科大 & 上科大

方法介紹

數(shù)據(jù)構(gòu)造

能力展示

實(shí)驗(yàn)分析

思考和總結(jié)

相關(guān)文章

GPT-4V 都搞不明白的未來(lái)推理有解法了！來(lái)自華科大 & 上科大