設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

AI 造夢師:香港大學(xué)攜手快手科技推出 GameFactory 框架,突破游戲場景泛化難題

2025/1/20 7:24:54 來源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 1 月 20 日消息,香港大學(xué)攜手快手科技,組建科研團隊,提出名為 GameFactory 的創(chuàng)新框架,目標(biāo)是解決游戲視頻生成中的場景泛化難題。該框架利用在開放域視頻數(shù)據(jù)上預(yù)訓(xùn)練的視頻擴散模型,能夠創(chuàng)造全新且多樣化的游戲場景。

項目背景

視頻擴散模型已成為強大的視頻生成和物理模擬工具,在游戲引擎開發(fā)方面展現(xiàn)出巨大潛力。這些生成式游戲引擎的功能類似于具有動作可控性的視頻生成模型,可以響應(yīng)用戶的鍵盤和鼠標(biāo)等輸入。

該領(lǐng)域的一個關(guān)鍵挑戰(zhàn)是場景泛化,即創(chuàng)建超越現(xiàn)有場景的新游戲場景的能力。雖然收集大規(guī)模的動作標(biāo)注視頻數(shù)據(jù)集是實現(xiàn)這一目標(biāo)最直接的方法,但這種標(biāo)注成本高昂,對于開放域場景來說并不實際,這種局限性阻礙開發(fā)多功能游戲引擎,在生成多樣化和新穎游戲環(huán)境方面面臨諸多挑戰(zhàn)。

現(xiàn)有視頻生成和游戲物理學(xué)領(lǐng)域也涌現(xiàn)了諸多突破方式,其中一個潛力方向就是視頻擴散模型。這些模型已經(jīng)從 U-Net 架構(gòu)發(fā)展到基于 Transformer 的架構(gòu),從而能夠生成更逼真、時長更長的視頻。

例如,Direct-a-Video 方法提供了基本的相機控制,MotionCtrl 和 CameraCtrl 則提供了更復(fù)雜的相機姿態(tài)操控。

在游戲領(lǐng)域,DIAMOND、GameNGen 和 PlayGen 等各種項目都嘗試了特定于游戲的實現(xiàn),但都存在對特定游戲和數(shù)據(jù)集過度擬合的問題,場景泛化能力有限。

項目介紹

GameFactory 利用預(yù)訓(xùn)練的視頻擴散模型,這些模型在開放域視頻數(shù)據(jù)上進行訓(xùn)練,使其能夠生成多樣化的游戲場景,突破了現(xiàn)有方法對特定游戲數(shù)據(jù)集的過度依賴。

此外,為了克服開放域先驗知識與有限游戲數(shù)據(jù)集之間的域差距,GameFactory 采用了一種獨特的三階段訓(xùn)練策略:

  • 第一階段:使用 LoRA(Low-Rank Adaptation)微調(diào)預(yù)訓(xùn)練模型,使其適應(yīng)目標(biāo)游戲領(lǐng)域,同時保留大部分原始參數(shù)。

  • 第二階段:凍結(jié)預(yù)訓(xùn)練參數(shù)和 LoRA,專注于訓(xùn)練動作控制模塊,避免風(fēng)格與控制的糾纏。

  • 第三階段:移除 LoRA 權(quán)重,保留動作控制模塊參數(shù),使系統(tǒng)能夠在各種開放域場景中生成受控的游戲視頻,而不局限于特定游戲風(fēng)格。

研究還評估了不同控制機制的有效性,發(fā)現(xiàn)交叉注意力機制在處理離散控制信號(如鍵盤輸入)方面表現(xiàn)優(yōu)于拼接方法,而拼接方法在處理連續(xù)鼠標(biāo)移動信號方面更有效,GameFactory 支持自回歸動作控制,能夠生成無限長度的交互式游戲視頻。

研究人員還發(fā)布了高質(zhì)量的動作標(biāo)注視頻數(shù)據(jù)集 GF-Minecraft,用于訓(xùn)練和評估 GameFactory 框架。

IT之家附上參考地址

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI,快手

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知