IT之家 1 月 10 日消息,阿里旗下通義萬(wàn)相宣布推出 2.1 版本模型升級(jí),視頻生成、圖像生成兩大能力均有顯著提升。
在視頻生成方面,通義萬(wàn)相 2.1 通過自研的高效 VAE 和 DiT 架構(gòu)增強(qiáng)了時(shí)空上下文建模能力,支持無(wú)限長(zhǎng) 1080P 視頻的高效編解碼,首次實(shí)現(xiàn)了中文文字視頻生成功能,登上 VBench 榜單第一。
據(jù)介紹,通義萬(wàn)相 2.1 支持中英文視頻,都可以一鍵生成藝術(shù)字,還提供多種視頻特效選項(xiàng),以增強(qiáng)視覺表現(xiàn)力,例如過渡、粒子效果、模擬等等。
IT之家注意到,通義萬(wàn)相 2.1 還支持復(fù)雜運(yùn)鏡,可還原碰撞、反彈、切割、擠壓等真實(shí)世界的物理規(guī)律,例如雨滴落在傘上會(huì)濺起水花。
圖片生成方面,通義萬(wàn)相 2.1 支持文生組圖,采用了 IC-LoRA 圖像生成訓(xùn)練方法,利用 DiT 架構(gòu),增強(qiáng)文本到圖像的上下文能力;對(duì)多張圖像進(jìn)行拼接與聯(lián)合描述即可實(shí)現(xiàn)關(guān)聯(lián)圖像間的組合生成,并保持特征穩(wěn)定連續(xù)。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。