設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

智譜 AI 開源視頻理解模型 CogVLM2-Video,可回答時(shí)間相關(guān)問題

2024/7/12 14:18:03 來源:IT之家 作者:沛霖(實(shí)習(xí)) 責(zé)編:沛霖
感謝IT之家網(wǎng)友 USER 的線索投遞!

IT之家 7 月 12 日消息,智譜 AI 宣布,訓(xùn)練了一種新的視頻理解模型 CogVLM2-Video,并將其開源。

據(jù)介紹,當(dāng)前大多數(shù)的視頻理解模型使用幀平均和視頻標(biāo)記壓縮方法,導(dǎo)致時(shí)間信息的丟失,無法準(zhǔn)確回答與時(shí)間相關(guān)的問題。一些專注于時(shí)間問答數(shù)據(jù)集的模型過于局限于特定格式和適用領(lǐng)域,使得模型失去了更廣泛的問答能力。

▲ 官方效果演示

智譜 AI 提出了一種基于視覺模型的自動(dòng)時(shí)間定位數(shù)據(jù)構(gòu)建方法,生成了 3 萬條與時(shí)間相關(guān)的視頻問答數(shù)據(jù)?;谶@個(gè)新數(shù)據(jù)集和現(xiàn)有的開放領(lǐng)域問答數(shù)據(jù),引入了多幀視頻圖像和時(shí)間戳作為編碼器輸入,訓(xùn)練出 CogVLM2-Video 模型。

智譜 AI 表示,CogVLM2-Video 不僅在公共視頻理解基準(zhǔn)上達(dá)到了最新的性能,還在視頻字幕生成和時(shí)間定位方面表現(xiàn)出色。

IT之家附相關(guān)鏈接:

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:智譜,CogVLM2

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知