一張顯卡“看懂”一部電影：智源聯(lián)合高校開源 Video-XL，打破長(zhǎng)視頻理解極限

新智元 2024/10/28 16:29:25 責(zé)編：汪淼

評(píng)論：

長(zhǎng)視頻理解是多模態(tài)大模型的核心能力之一，也是邁向通用人工智能（AGI）的關(guān)鍵一步。然而，現(xiàn)有的多模態(tài)大模型在處理 10 分鐘以上的超長(zhǎng)視頻時(shí)，仍然面臨性能差和效率低的雙重挑戰(zhàn)。

對(duì)此，智源研究院聯(lián)合上海交通大學(xué)、中國(guó)人民大學(xué)、北京大學(xué)和北京郵電大學(xué)等多所高校，推出了小時(shí)級(jí)的超長(zhǎng)視頻理解大模型 Video-XL。

Video-XL 借助語言模型（LLM）的原生能力對(duì)長(zhǎng)視覺序列進(jìn)行壓縮，不僅保留了短視頻理解的能力，而且在長(zhǎng)視頻理解上展現(xiàn)了出色的泛化能力。

Video-XL 相較于同等參數(shù)規(guī)模的模型，在多個(gè)主流長(zhǎng)視頻理解基準(zhǔn)評(píng)測(cè)的多項(xiàng)任務(wù)中排名第一。

此外，Video-XL 在效率與性能之間實(shí)現(xiàn)了良好的平衡，僅需一塊 80G 顯存的顯卡即可處理 2048 幀輸入（對(duì)小時(shí)級(jí)長(zhǎng)度視頻采樣），并在視頻「大海撈針」任務(wù)中取得了接近 95% 的準(zhǔn)確率。

僅需幾秒鐘，VideoXL便可以準(zhǔn)確檢索長(zhǎng)視頻中植入的廣告內(nèi)容，也可以像人類一樣準(zhǔn)確理解電影中發(fā)生的主要事件

▲ 僅需幾秒鐘，VideoXL 便可以準(zhǔn)確檢索長(zhǎng)視頻中植入的廣告內(nèi)容，也可以像人類一樣準(zhǔn)確理解電影中發(fā)生的主要事件

未來，Video-XL 有望在電影摘要、視頻異常檢測(cè)、廣告植入檢測(cè)等應(yīng)用場(chǎng)景中展現(xiàn)出廣泛的應(yīng)用價(jià)值，成為得力的長(zhǎng)視頻理解助手。

一張顯卡“看懂”一部電影：智源聯(lián)合高校開源 Video-XL，打破長(zhǎng)視頻理解極限

論文標(biāo)題：Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding
論文鏈接：https://arxiv.org/abs/2409.14485
模型鏈接：https://huggingface.co/sy1998/Video_XL
項(xiàng)目鏈接：https://github.com/VectorSpaceLab/Video-XL

不同長(zhǎng)視頻模型在單塊 80G 顯卡上支持的最大幀數(shù)及在 Video-MME 上的表現(xiàn)

圖 1 不同長(zhǎng)視頻模型在單塊 80G 顯卡上支持的最大幀數(shù)及在 Video-MME 上的表現(xiàn)

背景介紹

使用 MLLM 進(jìn)行長(zhǎng)視頻理解具有極大的研究和應(yīng)用前景。然而，當(dāng)前的視頻理解模型往往只能處理較短的視頻，無法處理十分鐘以上的視頻。

盡管最近研究社區(qū)出現(xiàn)了一些長(zhǎng)視頻理解模型，但這些工作主要存在以下問題：

壓縮視覺 token 帶來的信息損失

為了使語言模型的固定窗口長(zhǎng)度適應(yīng)長(zhǎng)視頻帶來的大量視覺 token，眾多方法嘗試設(shè)計(jì)機(jī)制對(duì)視覺 token 進(jìn)行壓縮，例如 LLaMA-VID 主要降低 token 的數(shù)量，而 MovieChat，MALMM 則設(shè)計(jì) memory 模塊對(duì)幀信息進(jìn)行壓縮。然而，壓縮視覺信息不可避免帶來信息的損失和性能降低。

性能和效率的不平衡

相關(guān)工作 LongVA 嘗試 finetune 語言模型擴(kuò)大其上下文窗口，并成功將短視頻理解能力泛化到了長(zhǎng)視頻上。LongVila 優(yōu)化了長(zhǎng)視頻訓(xùn)練的開銷，提出了高效訓(xùn)練長(zhǎng)視頻訓(xùn)練的范式。然而，這些工作并未考慮推理時(shí)視頻幀數(shù)增加帶來的計(jì)算開銷。

方法介紹

1. 模型結(jié)構(gòu)

Video-XL 模型結(jié)構(gòu)圖

圖 2 Video-XL 模型結(jié)構(gòu)圖

如圖 2 所示，Video-XL 的整體模型結(jié)構(gòu)和主流的 MLLMs 結(jié)構(gòu)相似，由視覺編碼器（CLIP），視覺-語言映射器（2-layer MLP）以及語言模型（Qwen-7B）構(gòu)成。

特別之處在于，為了處理各種格式的多模態(tài)數(shù)據(jù)（單圖，多圖和視頻），Video-XL 建立了一個(gè)統(tǒng)一的視覺編碼機(jī)制。

針對(duì)多圖和視頻數(shù)據(jù)，將每幀分別輸入 CLIP；
針對(duì)單圖，將其劃分為多個(gè)圖像塊，并將圖像塊輸入 CLIP 進(jìn)行編碼。

因此，一個(gè) N 幀的視頻或者一個(gè) N 圖像塊的圖片都將統(tǒng)一標(biāo)記成 N×M 視覺 token。

2. 視覺上下文隱空間壓縮

相比于以往長(zhǎng)視頻模型直接對(duì)視覺 token 壓縮，Video-XL 嘗試?yán)谜Z言模型對(duì)上下文的建模能力對(duì)長(zhǎng)視覺序列進(jìn)行無損壓縮。對(duì)于視覺語言連接器輸出的視覺信號(hào)序列：

一張顯卡“看懂”一部電影：智源聯(lián)合高校開源 Video-XL，打破長(zhǎng)視頻理解極限

其中 n 為視覺 token 的數(shù)量。Video-XL 的目標(biāo)在于將 X 壓縮成更為緊湊的視覺表示 C （|C|<|X|)。在下文中將詳細(xì)介紹視覺上下文隱空間壓縮的原理。

受到 Activation Beacon 的啟發(fā)，Video-XL 引入了一種新的特殊標(biāo)記，稱為視覺摘要標(biāo)記（VST）, 記為 <vs>。基于此可以將視覺信號(hào)的隱層特征壓縮到 VST 在 LLM 中的激活表示中（每層的 Key 和 Value 值）。

具體而言，首先將視覺信號(hào)序列 X 分成大小為 w 的窗口（默認(rèn)每個(gè)窗口長(zhǎng)度為 1440）：

一張顯卡“看懂”一部電影：智源聯(lián)合高校開源 Video-XL，打破長(zhǎng)視頻理解極限

接著，對(duì)每個(gè)窗口首先確定壓縮比，并插入一組 VST 標(biāo)記，以交替的方式在視覺標(biāo)記序列中插入。

在該過程中，視覺 token 表示的變化可以由以下公式表達(dá)：

一張顯卡“看懂”一部電影：智源聯(lián)合高校開源 Video-XL，打破長(zhǎng)視頻理解極限

LLM 將逐個(gè)處理每個(gè)窗口進(jìn)行編碼，并使用額外的投影矩陣在每層自注意力模塊中處理 VST 的隱藏值。

編碼完成后，普通視覺標(biāo)記的激活值被丟棄，而 VST 的激活值被保留并累積，作為處理后續(xù)窗口時(shí)的視覺信號(hào)代理。

3. 模型訓(xùn)練方式

Video-XL 通過優(yōu)化在壓縮視覺信號(hào)下的生成質(zhì)量來進(jìn)行訓(xùn)練。

下一個(gè) token 的預(yù)測(cè)通過以下公式進(jìn)行計(jì)算：

一張顯卡“看懂”一部電影：智源聯(lián)合高校開源 Video-XL，打破長(zhǎng)視頻理解極限

其中 Θ 代表模型所有優(yōu)化的參數(shù)，包含語言模型，視覺編碼器、視覺語言連接器、VST 的投影矩陣，以及 VST 的 token embedding。

模型通過最小化標(biāo)準(zhǔn)的自回歸損失進(jìn)行訓(xùn)練，訓(xùn)練過程中不計(jì)算 VST 標(biāo)記的損失（其標(biāo)簽設(shè)為-100），因?yàn)樗鼈儍H用于壓縮。

同時(shí)，為了靈活支持不同的壓縮粒度，訓(xùn)練時(shí)每個(gè)窗口的壓縮比會(huì)從 {2,4,8,12,16} 中隨機(jī)抽取。在推理時(shí)，可以根據(jù)具體的效率需求選擇一個(gè)壓縮比并應(yīng)用于所有窗口。

4. 模型訓(xùn)練數(shù)據(jù)

在預(yù)訓(xùn)練階段，Video-XL 使用 Laion-2M 數(shù)據(jù)集優(yōu)化視覺語言連接器。

在微調(diào)階段，Video-XL 充分利用了 MLLM 在各種多模態(tài)數(shù)據(jù)集上的能力。

對(duì)于單圖像數(shù)據(jù)，使用了 Bunny 695k 和 Sharegpt-4o 的 57k 張圖片。
對(duì)于多圖像數(shù)據(jù)，使用了從 MMDU 提取的 5k 個(gè)數(shù)據(jù)。
對(duì)于視頻數(shù)據(jù)，收集了不同時(shí)長(zhǎng)的視頻樣本，包括來自 NExT-QA 的 32k 樣本，Sharegpt-4o 的 2k 視頻樣本，CinePile 的 10k 樣本以及 11k 個(gè)帶有 GPT-4V 視頻字幕注釋的私有數(shù)據(jù)。

為了增強(qiáng)長(zhǎng)視頻理解能力并釋放視覺壓縮機(jī)制的潛力，本工作開發(fā)了一個(gè)自動(dòng)化的長(zhǎng)視頻數(shù)據(jù)生產(chǎn)流程，并創(chuàng)建了一個(gè)高質(zhì)量數(shù)據(jù)集 —— 視覺線索順序數(shù)據(jù)（VICO）。

該流程首先從 CinePile 數(shù)據(jù)或 YouTube 等視頻平臺(tái)獲取長(zhǎng)視頻，涵蓋電影、紀(jì)錄片、游戲、體育等開放領(lǐng)域的內(nèi)容。每個(gè)長(zhǎng)視頻被分割成 14 秒的片段。

對(duì)于每個(gè)片段，本工作使用 VILA-1.5 40B 模型生成詳細(xì)描述，包括動(dòng)作序列和關(guān)鍵事件?；谶@些描述，本工作利用 ChatGPT 將線索按時(shí)間順序排列。

VICO 數(shù)據(jù)集通過要求模型檢索關(guān)鍵幀并檢測(cè)時(shí)間變化，提升其長(zhǎng)視頻理解能力。

實(shí)驗(yàn)

1 . 評(píng)測(cè)基準(zhǔn)

Video-XL 選用多個(gè)主流視頻理解評(píng)測(cè)基準(zhǔn)，對(duì)于長(zhǎng)視頻理解任務(wù)，評(píng)測(cè)了 VNBench、LongVideoBench、MLVU 和 Video-MME；對(duì)于短視頻理解任務(wù)，評(píng)測(cè)了 MVBench 和 Next-QA。

2. 評(píng)測(cè)結(jié)果

長(zhǎng)視頻理解：

Video-XL 在 MLVU 和 VideoMME 的性能

表 1 Video-XL 在 MLVU 和 VideoMME 的性能

Video-XL 在 VNBench 和 LongVideoBench 上的性能

表 2 Video-XL 在 VNBench 和 LongVideoBench 上的性能

如表 1 和表 2 所示 Video-XL 在多個(gè)主流的長(zhǎng)視頻評(píng)測(cè)基準(zhǔn)上展現(xiàn)了卓越性能。

在 VNBench 上準(zhǔn)確率超過了目前最好的長(zhǎng)視頻模型大約 10%；
在 MLVU 的驗(yàn)證集上，僅僅具有 7B 參數(shù)的 Video-XL 甚至在單項(xiàng)選擇任務(wù)上超越了 GPT-4o 模型；
在 Video-MME 和 LongVideoBench 等數(shù)據(jù)集上，Video-XL 也在同等量級(jí)規(guī)模的長(zhǎng)視頻理解模型中排名第一。

超長(zhǎng)視頻理解：

Video-XL 通過進(jìn)行了視頻「大海撈針」測(cè)試來評(píng)估其處理超長(zhǎng)上下文的能力。

LLaVA-NexT-Video 和 LongLLaVA 都采用了簡(jiǎn)單的位置信息外推算法，但在輸入更多上下文時(shí)，仍然難以理解關(guān)鍵信息。雖然 LongVA 通過微調(diào) LLM 來處理更長(zhǎng)的輸入，但高昂的計(jì)算成本限制了其在單塊 80G GPU 上處理約 400 幀的能力。

相比之下，Video-XL 在相同硬件條件下，以 16 倍壓縮比和 2048 幀輸入，達(dá)到了近 95% 的準(zhǔn)確率。這表明，Video-XL 在準(zhǔn)確性和計(jì)算效率之間實(shí)現(xiàn)了最佳平衡。

短視頻理解：

盡管 Video-XL 的設(shè)計(jì)主要面向長(zhǎng)視頻，但它保留了短視頻理解的能力。在 MVBench 和 Next-QA 任務(wù)評(píng)測(cè)中，Video-XL 取得了和目前 SOTA 模型相當(dāng)?shù)男Ч?/p>

3. 消融實(shí)驗(yàn)

Video-XL 的消融實(shí)驗(yàn)

表 3 Video-XL 的消融實(shí)驗(yàn)

Video-XL 對(duì)所提出的視覺壓縮機(jī)制和 VICO 數(shù)據(jù)集進(jìn)行了消融實(shí)驗(yàn)，如表 3 所示。

視覺壓縮的有效性

Video-XL 使用 Bunny 695k 數(shù)據(jù)集訓(xùn)練了兩個(gè)模型：一個(gè)不使用壓縮，另一個(gè)使用隨機(jī)壓縮比（從 {2, 8, 16} 中選?。?。

對(duì)于壓縮模型，在視頻基準(zhǔn) MLVU 和圖像基準(zhǔn) MME、MMBench 上測(cè)試時(shí)應(yīng)用了不同的壓縮比。

值得注意的是，即使使用 16 的壓縮比，壓縮模型在仍表現(xiàn)出較好的效果，接近甚至超越了基線模型。

VICO 數(shù)據(jù)集的有效性

Video-XL 使用不同數(shù)據(jù)集訓(xùn)練了四個(gè)模型：（a）僅使用 Bunny 695k；（b）Bunny 695k 結(jié)合 NeXTQA 32k；（c）Bunny 695k 結(jié)合 CinePile 10k；（d）Bunny 695k 結(jié)合長(zhǎng)視頻字幕 5k；（e）Bunny 695k 結(jié)合 VICO 5k。

值得注意的是，即使僅使用 5k 的 VICO 數(shù)據(jù)，Video-XL 也超過了使用 NeXTQA 32k 訓(xùn)練的模型。

此外，主要事件 / 動(dòng)作排序任務(wù)比字幕生成任務(wù)帶來了更顯著的提升，因?yàn)樗偈鼓Ｐ蛷拈L(zhǎng)序列中提取關(guān)鍵片段并進(jìn)行理解。

可視化結(jié)果

Video-XL 在長(zhǎng)視頻理解任務(wù)上的可視化結(jié)果

圖 3 Video-XL 在長(zhǎng)視頻理解任務(wù)上的可視化結(jié)果

如圖 3 所示，Video-XL 在電影摘要、視頻異常檢測(cè)、廣告植入檢測(cè)等長(zhǎng)視頻任務(wù)上展現(xiàn)了良好的性能。

總結(jié)

該工作提出了 Video-XL 模型，利用語言模型的壓縮能力，僅需一塊 80G 顯卡即可理解小時(shí)級(jí)別的視頻；除此之外，Video-XL 在多個(gè)主流長(zhǎng)視頻理解基準(zhǔn)評(píng)測(cè)上表現(xiàn)優(yōu)異。

Video-XL 有望在多個(gè)長(zhǎng)視頻理解的應(yīng)用場(chǎng)景中展現(xiàn)出廣泛的應(yīng)用價(jià)值，成為得力的長(zhǎng)視頻理解助手。

目前，Video-XL 的模型代碼均已開源，以促進(jìn)全球多模態(tài)視頻理解研究社區(qū)的合作和技術(shù)共享。

參考資料：

https://arxiv.org/abs/2409.14485

本文來自微信公眾號(hào)：微信公眾號(hào)（ID：null），作者：編輯部 HYZ，原標(biāo)題《一張顯卡看遍天下電影！智源聯(lián)合高校開源 Video-XL 打破長(zhǎng)視頻理解極限，95% 準(zhǔn)確率刷爆紀(jì)錄》

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

一張顯卡“看懂”一部電影：智源聯(lián)合高校開源 Video-XL，打破長(zhǎng)視頻理解極限

背景介紹

方法介紹

1. 模型結(jié)構(gòu)

2. 視覺上下文隱空間壓縮

3. 模型訓(xùn)練方式

4. 模型訓(xùn)練數(shù)據(jù)

實(shí)驗(yàn)

1 . 評(píng)測(cè)基準(zhǔn)

2. 評(píng)測(cè)結(jié)果

3. 消融實(shí)驗(yàn)

可視化結(jié)果

總結(jié)

相關(guān)文章

一張顯卡“看懂”一部電影：智源聯(lián)合高校開源 Video-XL，打破長(zhǎng)視頻理解極限