IT之家 1 月 20 日消息,香港大學(xué)攜手快手科技,組建科研團隊,提出名為 GameFactory 的創(chuàng)新框架,目標(biāo)是解決游戲視頻生成中的場景泛化難題。該框架利用在開放域視頻數(shù)據(jù)上預(yù)訓(xùn)練的視頻擴散模型,能夠創(chuàng)造全新且多樣化的游戲場景。
項目背景
視頻擴散模型已成為強大的視頻生成和物理模擬工具,在游戲引擎開發(fā)方面展現(xiàn)出巨大潛力。這些生成式游戲引擎的功能類似于具有動作可控性的視頻生成模型,可以響應(yīng)用戶的鍵盤和鼠標(biāo)等輸入。
該領(lǐng)域的一個關(guān)鍵挑戰(zhàn)是場景泛化,即創(chuàng)建超越現(xiàn)有場景的新游戲場景的能力。雖然收集大規(guī)模的動作標(biāo)注視頻數(shù)據(jù)集是實現(xiàn)這一目標(biāo)最直接的方法,但這種標(biāo)注成本高昂,對于開放域場景來說并不實際,這種局限性阻礙開發(fā)多功能游戲引擎,在生成多樣化和新穎游戲環(huán)境方面面臨諸多挑戰(zhàn)。
現(xiàn)有視頻生成和游戲物理學(xué)領(lǐng)域也涌現(xiàn)了諸多突破方式,其中一個潛力方向就是視頻擴散模型。這些模型已經(jīng)從 U-Net 架構(gòu)發(fā)展到基于 Transformer 的架構(gòu),從而能夠生成更逼真、時長更長的視頻。
例如,Direct-a-Video 方法提供了基本的相機控制,MotionCtrl 和 CameraCtrl 則提供了更復(fù)雜的相機姿態(tài)操控。
在游戲領(lǐng)域,DIAMOND、GameNGen 和 PlayGen 等各種項目都嘗試了特定于游戲的實現(xiàn),但都存在對特定游戲和數(shù)據(jù)集過度擬合的問題,場景泛化能力有限。
項目介紹
GameFactory 利用預(yù)訓(xùn)練的視頻擴散模型,這些模型在開放域視頻數(shù)據(jù)上進行訓(xùn)練,使其能夠生成多樣化的游戲場景,突破了現(xiàn)有方法對特定游戲數(shù)據(jù)集的過度依賴。
此外,為了克服開放域先驗知識與有限游戲數(shù)據(jù)集之間的域差距,GameFactory 采用了一種獨特的三階段訓(xùn)練策略:
第一階段:使用 LoRA(Low-Rank Adaptation)微調(diào)預(yù)訓(xùn)練模型,使其適應(yīng)目標(biāo)游戲領(lǐng)域,同時保留大部分原始參數(shù)。
第二階段:凍結(jié)預(yù)訓(xùn)練參數(shù)和 LoRA,專注于訓(xùn)練動作控制模塊,避免風(fēng)格與控制的糾纏。
第三階段:移除 LoRA 權(quán)重,保留動作控制模塊參數(shù),使系統(tǒng)能夠在各種開放域場景中生成受控的游戲視頻,而不局限于特定游戲風(fēng)格。
研究還評估了不同控制機制的有效性,發(fā)現(xiàn)交叉注意力機制在處理離散控制信號(如鍵盤輸入)方面表現(xiàn)優(yōu)于拼接方法,而拼接方法在處理連續(xù)鼠標(biāo)移動信號方面更有效,GameFactory 支持自回歸動作控制,能夠生成無限長度的交互式游戲視頻。
研究人員還發(fā)布了高質(zhì)量的動作標(biāo)注視頻數(shù)據(jù)集 GF-Minecraft,用于訓(xùn)練和評估 GameFactory 框架。
IT之家附上參考地址
GameFactory: Creating New Games with Generative Interactive Videos
GameFactory: Leveraging Pre-trained Video Models for Creating New Game
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。