長(zhǎng)視頻理解是多模態(tài)大模型的核心能力之一,也是邁向通用人工智能(AGI)的關(guān)鍵一步。然而,現(xiàn)有的多模態(tài)大模型在處理 10 分鐘以上的超長(zhǎng)視頻時(shí),仍然面臨性能差和效率低的雙重挑戰(zhàn)。
對(duì)此,智源研究院聯(lián)合上海交通大學(xué)、中國(guó)人民大學(xué)、北京大學(xué)和北京郵電大學(xué)等多所高校,推出了小時(shí)級(jí)的超長(zhǎng)視頻理解大模型 Video-XL。
Video-XL 借助語言模型(LLM)的原生能力對(duì)長(zhǎng)視覺序列進(jìn)行壓縮,不僅保留了短視頻理解的能力,而且在長(zhǎng)視頻理解上展現(xiàn)了出色的泛化能力。
Video-XL 相較于同等參數(shù)規(guī)模的模型,在多個(gè)主流長(zhǎng)視頻理解基準(zhǔn)評(píng)測(cè)的多項(xiàng)任務(wù)中排名第一。
此外,Video-XL 在效率與性能之間實(shí)現(xiàn)了良好的平衡,僅需一塊 80G 顯存的顯卡即可處理 2048 幀輸入(對(duì)小時(shí)級(jí)長(zhǎng)度視頻采樣),并在視頻「大海撈針」任務(wù)中取得了接近 95% 的準(zhǔn)確率。
未來,Video-XL 有望在電影摘要、視頻異常檢測(cè)、廣告植入檢測(cè)等應(yīng)用場(chǎng)景中展現(xiàn)出廣泛的應(yīng)用價(jià)值,成為得力的長(zhǎng)視頻理解助手。
論文標(biāo)題:Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding
項(xiàng)目鏈接:https://github.com/VectorSpaceLab/Video-XL
背景介紹
使用 MLLM 進(jìn)行長(zhǎng)視頻理解具有極大的研究和應(yīng)用前景。然而,當(dāng)前的視頻理解模型往往只能處理較短的視頻,無法處理十分鐘以上的視頻。
盡管最近研究社區(qū)出現(xiàn)了一些長(zhǎng)視頻理解模型,但這些工作主要存在以下問題:
壓縮視覺 token 帶來的信息損失
為了使語言模型的固定窗口長(zhǎng)度適應(yīng)長(zhǎng)視頻帶來的大量視覺 token,眾多方法嘗試設(shè)計(jì)機(jī)制對(duì)視覺 token 進(jìn)行壓縮,例如 LLaMA-VID 主要降低 token 的數(shù)量,而 MovieChat,MALMM 則設(shè)計(jì) memory 模塊對(duì)幀信息進(jìn)行壓縮。然而,壓縮視覺信息不可避免帶來信息的損失和性能降低。
性能和效率的不平衡
相關(guān)工作 LongVA 嘗試 finetune 語言模型擴(kuò)大其上下文窗口,并成功將短視頻理解能力泛化到了長(zhǎng)視頻上。LongVila 優(yōu)化了長(zhǎng)視頻訓(xùn)練的開銷,提出了高效訓(xùn)練長(zhǎng)視頻訓(xùn)練的范式。然而,這些工作并未考慮推理時(shí)視頻幀數(shù)增加帶來的計(jì)算開銷。
方法介紹
1. 模型結(jié)構(gòu)
如圖 2 所示,Video-XL 的整體模型結(jié)構(gòu)和主流的 MLLMs 結(jié)構(gòu)相似,由視覺編碼器(CLIP),視覺-語言映射器(2-layer MLP)以及語言模型(Qwen-7B)構(gòu)成。
特別之處在于,為了處理各種格式的多模態(tài)數(shù)據(jù)(單圖,多圖和視頻),Video-XL 建立了一個(gè)統(tǒng)一的視覺編碼機(jī)制。
針對(duì)多圖和視頻數(shù)據(jù),將每幀分別輸入 CLIP;
針對(duì)單圖,將其劃分為多個(gè)圖像塊,并將圖像塊輸入 CLIP 進(jìn)行編碼。
因此,一個(gè) N 幀的視頻或者一個(gè) N 圖像塊的圖片都將統(tǒng)一標(biāo)記成 N×M 視覺 token。
2. 視覺上下文隱空間壓縮
相比于以往長(zhǎng)視頻模型直接對(duì)視覺 token 壓縮,Video-XL 嘗試?yán)谜Z言模型對(duì)上下文的建模能力對(duì)長(zhǎng)視覺序列進(jìn)行無損壓縮。對(duì)于視覺語言連接器輸出的視覺信號(hào)序列:
其中 n 為視覺 token 的數(shù)量。Video-XL 的目標(biāo)在于將 X 壓縮成更為緊湊的視覺表示 C (|C|<|X|)。在下文中將詳細(xì)介紹視覺上下文隱空間壓縮的原理。
受到 Activation Beacon 的啟發(fā),Video-XL 引入了一種新的特殊標(biāo)記,稱為視覺摘要標(biāo)記(VST), 記為 <vs>。基于此可以將視覺信號(hào)的隱層特征壓縮到 VST 在 LLM 中的激活表示中(每層的 Key 和 Value 值)。
具體而言,首先將視覺信號(hào)序列 X 分成大小為 w 的窗口(默認(rèn)每個(gè)窗口長(zhǎng)度為 1440):
接著,對(duì)每個(gè)窗口首先確定壓縮比,并插入一組 VST 標(biāo)記,以交替的方式在視覺標(biāo)記序列中插入。
在該過程中,視覺 token 表示的變化可以由以下公式表達(dá):
LLM 將逐個(gè)處理每個(gè)窗口進(jìn)行編碼,并使用額外的投影矩陣在每層自注意力模塊中處理 VST 的隱藏值。
編碼完成后,普通視覺標(biāo)記的激活值被丟棄,而 VST 的激活值被保留并累積,作為處理后續(xù)窗口時(shí)的視覺信號(hào)代理。
3. 模型訓(xùn)練方式
Video-XL 通過優(yōu)化在壓縮視覺信號(hào)下的生成質(zhì)量來進(jìn)行訓(xùn)練。
下一個(gè) token 的預(yù)測(cè)通過以下公式進(jìn)行計(jì)算:
其中 Θ 代表模型所有優(yōu)化的參數(shù),包含語言模型,視覺編碼器、視覺語言連接器、VST 的投影矩陣,以及 VST 的 token embedding。
模型通過最小化標(biāo)準(zhǔn)的自回歸損失進(jìn)行訓(xùn)練,訓(xùn)練過程中不計(jì)算 VST 標(biāo)記的損失(其標(biāo)簽設(shè)為-100),因?yàn)樗鼈儍H用于壓縮。
同時(shí),為了靈活支持不同的壓縮粒度,訓(xùn)練時(shí)每個(gè)窗口的壓縮比會(huì)從 {2,4,8,12,16} 中隨機(jī)抽取。在推理時(shí),可以根據(jù)具體的效率需求選擇一個(gè)壓縮比并應(yīng)用于所有窗口。
4. 模型訓(xùn)練數(shù)據(jù)
在預(yù)訓(xùn)練階段,Video-XL 使用 Laion-2M 數(shù)據(jù)集優(yōu)化視覺語言連接器。
在微調(diào)階段,Video-XL 充分利用了 MLLM 在各種多模態(tài)數(shù)據(jù)集上的能力。
對(duì)于單圖像數(shù)據(jù),使用了 Bunny 695k 和 Sharegpt-4o 的 57k 張圖片。
對(duì)于多圖像數(shù)據(jù),使用了從 MMDU 提取的 5k 個(gè)數(shù)據(jù)。
對(duì)于視頻數(shù)據(jù),收集了不同時(shí)長(zhǎng)的視頻樣本,包括來自 NExT-QA 的 32k 樣本,Sharegpt-4o 的 2k 視頻樣本,CinePile 的 10k 樣本以及 11k 個(gè)帶有 GPT-4V 視頻字幕注釋的私有數(shù)據(jù)。
為了增強(qiáng)長(zhǎng)視頻理解能力并釋放視覺壓縮機(jī)制的潛力,本工作開發(fā)了一個(gè)自動(dòng)化的長(zhǎng)視頻數(shù)據(jù)生產(chǎn)流程,并創(chuàng)建了一個(gè)高質(zhì)量數(shù)據(jù)集 —— 視覺線索順序數(shù)據(jù)(VICO)。
該流程首先從 CinePile 數(shù)據(jù)或 YouTube 等視頻平臺(tái)獲取長(zhǎng)視頻,涵蓋電影、紀(jì)錄片、游戲、體育等開放領(lǐng)域的內(nèi)容。每個(gè)長(zhǎng)視頻被分割成 14 秒的片段。
對(duì)于每個(gè)片段,本工作使用 VILA-1.5 40B 模型生成詳細(xì)描述,包括動(dòng)作序列和關(guān)鍵事件?;谶@些描述,本工作利用 ChatGPT 將線索按時(shí)間順序排列。
VICO 數(shù)據(jù)集通過要求模型檢索關(guān)鍵幀并檢測(cè)時(shí)間變化,提升其長(zhǎng)視頻理解能力。
實(shí)驗(yàn)
1 . 評(píng)測(cè)基準(zhǔn)
Video-XL 選用多個(gè)主流視頻理解評(píng)測(cè)基準(zhǔn),對(duì)于長(zhǎng)視頻理解任務(wù),評(píng)測(cè)了 VNBench、LongVideoBench、MLVU 和 Video-MME;對(duì)于短視頻理解任務(wù),評(píng)測(cè)了 MVBench 和 Next-QA。
2. 評(píng)測(cè)結(jié)果
長(zhǎng)視頻理解:
如表 1 和表 2 所示 Video-XL 在多個(gè)主流的長(zhǎng)視頻評(píng)測(cè)基準(zhǔn)上展現(xiàn)了卓越性能。
在 VNBench 上準(zhǔn)確率超過了目前最好的長(zhǎng)視頻模型大約 10%;
在 MLVU 的驗(yàn)證集上,僅僅具有 7B 參數(shù)的 Video-XL 甚至在單項(xiàng)選擇任務(wù)上超越了 GPT-4o 模型;
在 Video-MME 和 LongVideoBench 等數(shù)據(jù)集上,Video-XL 也在同等量級(jí)規(guī)模的長(zhǎng)視頻理解模型中排名第一。
超長(zhǎng)視頻理解:
Video-XL 通過進(jìn)行了視頻「大海撈針」測(cè)試來評(píng)估其處理超長(zhǎng)上下文的能力。
LLaVA-NexT-Video 和 LongLLaVA 都采用了簡(jiǎn)單的位置信息外推算法,但在輸入更多上下文時(shí),仍然難以理解關(guān)鍵信息。雖然 LongVA 通過微調(diào) LLM 來處理更長(zhǎng)的輸入,但高昂的計(jì)算成本限制了其在單塊 80G GPU 上處理約 400 幀的能力。
相比之下,Video-XL 在相同硬件條件下,以 16 倍壓縮比和 2048 幀輸入,達(dá)到了近 95% 的準(zhǔn)確率。這表明,Video-XL 在準(zhǔn)確性和計(jì)算效率之間實(shí)現(xiàn)了最佳平衡。
短視頻理解:
盡管 Video-XL 的設(shè)計(jì)主要面向長(zhǎng)視頻,但它保留了短視頻理解的能力。在 MVBench 和 Next-QA 任務(wù)評(píng)測(cè)中,Video-XL 取得了和目前 SOTA 模型相當(dāng)?shù)男Ч?/p>
3. 消融實(shí)驗(yàn)
Video-XL 對(duì)所提出的視覺壓縮機(jī)制和 VICO 數(shù)據(jù)集進(jìn)行了消融實(shí)驗(yàn),如表 3 所示。
視覺壓縮的有效性
Video-XL 使用 Bunny 695k 數(shù)據(jù)集訓(xùn)練了兩個(gè)模型:一個(gè)不使用壓縮,另一個(gè)使用隨機(jī)壓縮比(從 {2, 8, 16} 中選?。?。
對(duì)于壓縮模型,在視頻基準(zhǔn) MLVU 和圖像基準(zhǔn) MME、MMBench 上測(cè)試時(shí)應(yīng)用了不同的壓縮比。
值得注意的是,即使使用 16 的壓縮比,壓縮模型在仍表現(xiàn)出較好的效果,接近甚至超越了基線模型。
VICO 數(shù)據(jù)集的有效性
Video-XL 使用不同數(shù)據(jù)集訓(xùn)練了四個(gè)模型:(a)僅使用 Bunny 695k;(b)Bunny 695k 結(jié)合 NeXTQA 32k;(c)Bunny 695k 結(jié)合 CinePile 10k;(d)Bunny 695k 結(jié)合長(zhǎng)視頻字幕 5k;(e)Bunny 695k 結(jié)合 VICO 5k。
值得注意的是,即使僅使用 5k 的 VICO 數(shù)據(jù),Video-XL 也超過了使用 NeXTQA 32k 訓(xùn)練的模型。
此外,主要事件 / 動(dòng)作排序任務(wù)比字幕生成任務(wù)帶來了更顯著的提升,因?yàn)樗偈鼓P蛷拈L(zhǎng)序列中提取關(guān)鍵片段并進(jìn)行理解。
可視化結(jié)果
如圖 3 所示,Video-XL 在電影摘要、視頻異常檢測(cè)、廣告植入檢測(cè)等長(zhǎng)視頻任務(wù)上展現(xiàn)了良好的性能。
總結(jié)
該工作提出了 Video-XL 模型,利用語言模型的壓縮能力,僅需一塊 80G 顯卡即可理解小時(shí)級(jí)別的視頻;除此之外,Video-XL 在多個(gè)主流長(zhǎng)視頻理解基準(zhǔn)評(píng)測(cè)上表現(xiàn)優(yōu)異。
Video-XL 有望在多個(gè)長(zhǎng)視頻理解的應(yīng)用場(chǎng)景中展現(xiàn)出廣泛的應(yīng)用價(jià)值,成為得力的長(zhǎng)視頻理解助手。
目前,Video-XL 的模型代碼均已開源,以促進(jìn)全球多模態(tài)視頻理解研究社區(qū)的合作和技術(shù)共享。
參考資料:
本文來自微信公眾號(hào):微信公眾號(hào)(ID:null),作者:編輯部 HYZ,原標(biāo)題《一張顯卡看遍天下電影!智源聯(lián)合高校開源 Video-XL 打破長(zhǎng)視頻理解極限,95% 準(zhǔn)確率刷爆紀(jì)錄》
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。