IT之家 3 月 20 日消息,今年 2 月階躍星辰開源了兩款 Step 系列多模態(tài)大模型 ——Step-Video-T2V 視頻生成模型和 Step-Audio 語(yǔ)音模型,今天階躍星辰繼續(xù)開源圖生視頻模型 ——Step-Video-TI2V,一款基于 30B 參數(shù) Step-Video-T2V 訓(xùn)練的圖生視頻模型,支持生成 102 幀、5 秒、540P 分辨率的視頻,具備運(yùn)動(dòng)幅度可控和鏡頭運(yùn)動(dòng)可控兩大核心特點(diǎn),同時(shí)天生具備一定的特效生成能力。
階躍星辰稱,和目前已有開源圖生視頻模型相比,Step-Video-TI2V 不僅在參數(shù)規(guī)模上對(duì)該領(lǐng)域的研究提供了更高的上限,其運(yùn)動(dòng)幅度可控能力,更是能夠平衡圖生視頻生成結(jié)果的動(dòng)態(tài)性和穩(wěn)定性,為創(chuàng)作者提供更為靈活的選擇。
與此同時(shí),Step-Video-TI2V 已完成與華為昇騰計(jì)算平臺(tái)的適配,并在魔樂社區(qū)(Modelers)上線。
IT之家附 Step-Video-TI2V 核心特點(diǎn)如下:
1、運(yùn)動(dòng)幅度可控:動(dòng)態(tài) & 穩(wěn)定自由切換
Step-Video-TI2V 支持控制視頻的“運(yùn)動(dòng)幅度(motion)”,平衡圖生視頻內(nèi)容的運(yùn)動(dòng)性和穩(wěn)定性。無(wú)論是靜態(tài)穩(wěn)定畫面,還是高動(dòng)態(tài)動(dòng)作場(chǎng)景,都能滿足創(chuàng)作者需求。
2、多種運(yùn)鏡控制
除了對(duì)鏡頭內(nèi)主體運(yùn)動(dòng)的控制,Step-Video-TI2V 支持對(duì)多種運(yùn)鏡的理解,可以對(duì)生成視頻中的鏡頭運(yùn)動(dòng)進(jìn)行精準(zhǔn)控制,生成大片級(jí)運(yùn)鏡效果。從基本的推拉搖移、升降,到各種復(fù)雜的電影級(jí)運(yùn)鏡效果都能駕馭。
3、動(dòng)漫效果尤佳
Step-Video-TI2V 在動(dòng)漫類任務(wù)上的效果尤其優(yōu)異,非常貼合動(dòng)畫創(chuàng)作、短視頻制作等應(yīng)用場(chǎng)景。
4、支持多尺寸生成
Step-Video-TI2V 支持多種尺寸圖生視頻,無(wú)論是橫屏的寬闊視野,豎屏的沉浸體驗(yàn),還是方屏的經(jīng)典復(fù)古,都能輕松駕馭。用戶可以根據(jù)不同的創(chuàng)作需求和平臺(tái)特性,自由選擇圖片尺寸,無(wú)需擔(dān)心畫面變形或比例失調(diào)的問題。
現(xiàn)在,Step-Video-TI2V 模型已正式開源,階躍 AI 網(wǎng)頁(yè)版和 App 端均已上線。
此外,Step-Video-TI2V 現(xiàn)在已初步具備一些特效生成能力,未來(lái),階躍星辰還將通過(guò) LoRA 等技術(shù),持續(xù)解鎖模型的特效潛力。
模型及技術(shù)報(bào)告鏈接:
GitHub:
https://github.com/stepfun-ai/Step-Video-TI2V
Github-ComfyUI:
https://github.com/stepfun-ai/ComfyUI-StepVideo
技術(shù)報(bào)告:
https://arxiv.org/abs/2503.11251
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。