【新智元導(dǎo)讀】香港科技大學(xué)和特拉維夫大學(xué)的團(tuán)隊開源了基于視頻大模型的「文字跳動」(Dynamic Typography)技術(shù),僅需選擇一個字母,并給出一段簡單的文字描述,就可以生成 SVG 動畫讓這個字母「躍然紙上」。
ROMANTIC(浪漫的)中的「M」,變成了一對情侶手拉手,前后走。
Father(父親)中的「h」,被演繹為一個父親耐心地牽著他的小孩一起散步。
PASSION(激情)中的「N」,可以化為一對情侶擁吻在一起。
SWAN(天鵝)中的「S」,竟變成一只天鵝優(yōu)雅地伸展著她的脖頸。
TELESCOPE(望遠(yuǎn)鏡) 中的「P」,成為了一個真的望遠(yuǎn)鏡!緩緩地轉(zhuǎn)向鏡頭。
這就是來自港科大和特拉維夫大學(xué)的研究團(tuán)隊為我們帶來的最新作品:Dynamic Typography。
論文鏈接: https://arxiv.org/abs/2404.11614
項目主頁: https://animate-your-word.github.io/demo/
讓文字動起來
文本動畫是一種表達(dá)性的媒介,它將靜態(tài)溝通轉(zhuǎn)變?yōu)閯討B(tài)體驗,從而喚起情感,強(qiáng)調(diào)文本的意義,并構(gòu)建引人入勝的敘事,從而被廣泛應(yīng)用于梗圖,視頻,及廣告制作中。然而,想要制作這樣符合語義的動畫需要在圖形設(shè)計和動畫制作方面的專業(yè)知識。
因此,研究人員提出了一種全新自動化文本動畫方案「文字跳動」,實現(xiàn)了文本與動畫的完美融合。
該方案可以拆解為兩個步驟:
1. 根據(jù)用戶的描述,字母將被變形從而傳達(dá)文本語義。
2. 變形的字母將被賦予用戶描述的生動動態(tài)效果,從而達(dá)成文字動畫。
在文字絲滑運動的同時保持其可讀性極具挑戰(zhàn)性。當(dāng)下的文生視頻模型均難以保證生成可讀的文字,更無法將文字根據(jù)其語義信息「變形」從而更好地傳達(dá)運動信息。而重新訓(xùn)練這樣的模型需要大量難以獲取的風(fēng)格化文字視頻作為數(shù)據(jù)集。
研究人員使用了 Score Distillation Sampling(SDS)技術(shù),通過蒸餾大參數(shù)量文生視頻基礎(chǔ)模型中的先驗知識,預(yù)測文字的矢量圖中的控制點在每一幀的位移,并通過額外的可讀性約束以及結(jié)構(gòu)保持技術(shù)實現(xiàn)了文字運動過程中可讀性和外觀的保持。
研究人員展示了他們提出的框架在各種文生視頻模型上的通用性,并強(qiáng)調(diào)了該方法相比基線方法的優(yōu)越性。實驗結(jié)果表明了他們的技術(shù)可以成功生成與用戶描述相符且連貫的文本動畫,同時保持了原文字可讀性。
方法
1. 數(shù)據(jù)表征
在這項工作中,字母的輪廓被表征為若干條相連的三次貝塞爾曲線,由貝塞爾曲線控制點決定其形狀。作者提出的方法為每一幀預(yù)測每個控制點的位移。這些位移將字母「變形」從而傳達(dá)語義信息,并通過每一幀不同的位移加入運動。
字母的輪廓被提取為相連接的三次貝塞爾曲線
2. 模型框架
給定一個表征為貝塞爾曲線的字母,研究人員首先使用一個基于坐標(biāo)的 MLP(稱為 Base Field,基礎(chǔ)場)將字母變形可以表征其語義信息的 base shape,如圖中的「CAMEL」的「M」被變形為駱駝的樣子。
Base shape 緊接著被復(fù)制到每一幀,并通過另外一個基于坐標(biāo)的 MLP(稱為 Displacement Field,位移場)預(yù)測每個控制點在每一幀的位移,從而為 base shape 加入運動。
每一幀接著通過一個可微渲染器渲染為像素圖片,并拼接為輸出視頻。基礎(chǔ)場和位移場通過文生視頻的先驗知識以及其他的約束項完成端到端的共同優(yōu)化。
3. 優(yōu)化
當(dāng)下基于擴(kuò)散的文生圖模型如 Stable Diffusion 通過大規(guī)模的二維像素圖片進(jìn)行訓(xùn)練,包含了豐富的先驗知識。Score Distillation Sampling(SDS)旨在蒸餾擴(kuò)散模型中的先驗知識,用于訓(xùn)練其他模型生成其他模態(tài)的內(nèi)容,如訓(xùn)練 NeRF 中 MLP 的參數(shù)從而生成 3D 模型。
在該工作中,研究人員通過 SDS 蒸餾一個基于擴(kuò)散的文生視頻模型,基于得到的先驗知識訓(xùn)練基礎(chǔ)場以及位移場中的參數(shù)。
此外,為了保證生成視頻的每一幀仍然保持字母本身的可讀性,(如單詞「CAMEL」中的字母「M」在外觀近似于駱駝的同時也需要保持單詞 M 的形狀,使用戶可以辨認(rèn)出其是字母 M),該工作通過加入基于 Learned Perceptual Image Patch Similarity(LPIPS)的約束項,約束 base shape 與原字母的感知相似度。
為了緩解觀察到的貝賽爾曲線頻繁交叉導(dǎo)致嚴(yán)重閃爍的問題,該工作加入了基于三角化的結(jié)構(gòu)保持約束項,在變形以及運動的過程中維持穩(wěn)定的骨架結(jié)構(gòu)。
貝塞爾曲線的頻繁交叉造成了嚴(yán)重的閃爍
基于三角化的 structure-preservation loss
實驗
實驗方面,研究人員從文字的可讀性(legibility)以及用戶提供的文本描述與視頻的一致性兩方面進(jìn)行評估。
該工作與兩類不同的方法進(jìn)行了比較:一類是針對像素圖的文生視頻模型,另一類是針對矢量圖的通用動畫化方案。
在針對像素圖的文生視頻模型中,該工作與當(dāng)下領(lǐng)先的文生視頻模型 Gen-2 以及圖生視頻模型 DynamiCrafter 進(jìn)行了比較。
通過定性以及定量的對比結(jié)果可以看出,其他的方法大多很難在生成視頻時保持字母的可讀性,亦或難以生成符合語義的運動。而該論文提出的方法在生成符合用戶給定的文本描述的運動的同時,有效的保持了字母在運動過程中的可讀性。
與其他方法的定性對比
與其他方法的定量對比
為了進(jìn)一步證明該工作中每一個模塊的作用,研究人員進(jìn)行了充分的消融實驗。實驗結(jié)果表明,base shape 的設(shè)計以及基于三角化的結(jié)構(gòu)保持技術(shù)有效的提升了視頻質(zhì)量,而基于感官相似度的可讀性約束有效的保持了字母在運動過程中的可讀性。
消融實驗定性結(jié)果
消融實驗定量結(jié)果
研究人員進(jìn)一步說明了他們提出的框架在各種文生視頻模型上的通用性,這意味著該框架可以兼容于未來視頻生成模型的進(jìn)一步發(fā)展,并隨著視頻生成模型效果的提升生成更具吸引力的文字動畫。
蒸餾不同視頻生成模型的結(jié)果對比
參考資料:
https://arxiv.org/abs/2404.11614
本文來自微信公眾號:新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。