一句話(huà)拍大片,導(dǎo)演末日來(lái)了,Gen-2 震撼發(fā)布,科幻日系二次元統(tǒng)統(tǒng)拿捏

新智元 2023/3/21 18:13:05 責(zé)編:夢(mèng)澤

Runway 的 Gen-1 還沒(méi)內(nèi)測(cè)完,Gen-2 就以迅雷不及掩耳之勢(shì)發(fā)布了。這次的效果更加炸裂,AI 大到離淘汰人類(lèi),又近了一步。

昨天,Midjourney 生成的完美情侶刷爆網(wǎng)絡(luò),大家紛紛在留言區(qū)里暢想,下一步,就是演員被淘汰,人人都能升級(jí)大導(dǎo),一鍵生成大電影了。

巧得很,今天,會(huì)做視頻的 AI 模型不就來(lái)了嘛。

剛剛,仿佛一聲驚雷炸響,Runway 發(fā)布了文字生成視頻模型 Gen-2。

宣傳詞也是非常炸裂 ——「say it,see it」,只要你說(shuō)得出來(lái),它就能給你做出來(lái)??苹眯≌f(shuō)里的超能力成真了!

可以說(shuō),有了 Runway Gen-2,你就能用任意的圖像、視頻或文本,生成一段酷炫大片,想要啥風(fēng)格,就有啥風(fēng)格。

這個(gè)速度簡(jiǎn)直讓人目瞪口呆:Gen-1 的內(nèi)測(cè)都還沒(méi)拿到呢,Gen-2 就來(lái)了!

一句話(huà),一張圖,三秒視頻無(wú)中生有

此前,Runway 在文本到圖像領(lǐng)域就曾經(jīng)大放異彩,大名鼎鼎的 Stable Diffusion,就是 Runway 開(kāi)發(fā)的。

在今年 2 月,Runway 就提出了首個(gè) AI 編輯模型 Gen-1。

顧名思義,Gen-1 可以在原視頻的基礎(chǔ)上,編輯出咱們想要的視頻。無(wú)論是粗糙的 3D 動(dòng)畫(huà),還是用手機(jī)拍出來(lái)的搖搖晃晃的視頻,Gen-1 都可以升級(jí)出一個(gè)不可思議的效果。

論文地址:https://arxiv.org/ abs / 2302.03011

比如用幾個(gè)包裝盒,Gen-1 就可以生成一個(gè)工廠的視頻,化腐朽為神奇,就是這么簡(jiǎn)單。

而相比 Gen-1,Gen-2 獲得了史詩(shī)級(jí)的升級(jí) —— 可以從頭開(kāi)始生成視頻。

目前,這個(gè)模型還未開(kāi)放,預(yù)計(jì)在幾周內(nèi)會(huì)公開(kāi)。

而根據(jù)目前的演示片段看來(lái),Gen-2 的效果似乎暫時(shí)比不上 Gen-1,沒(méi)有那么逼真。

但是,這畢竟是 AI 文生視頻 0 到 1 的第一步。AI 導(dǎo)演做到這一步,已經(jīng)夠人類(lèi)顫抖的了。

網(wǎng)友實(shí)測(cè),效果炸裂

而獲得內(nèi)測(cè)資格的幸運(yùn)網(wǎng)友,已經(jīng)開(kāi)始動(dòng)手生成自己的電影了。

可以看出,無(wú)論是宮崎駿風(fēng)格的日系動(dòng)畫(huà),還是寫(xiě)實(shí)風(fēng)格的鏡頭特寫(xiě),或者魔幻特效的電影大片,Gen-2 都不在話(huà)下。

雖然目前的畫(huà)質(zhì)可能還不夠細(xì)膩,但畢竟是從 0 生成的視頻,一旦日后優(yōu)化好,大導(dǎo)們的飯碗怕是捧不穩(wěn)了。

Gen-2 的八大「魔法」

Mode 01:Text to Video(文字生成視頻)

一個(gè)文本提示,就能合成出任意風(fēng)格的視頻,不怕它生不出來(lái),只怕你想不到。

提示:

在紐約市的一間閣樓里,傍晚的陽(yáng)光透過(guò)窗戶(hù)溫柔地灑進(jìn)屋內(nèi)。

輸出:

Mode 02:Text + Image to Video(文字 + 圖像生成視頻)

輸入一幅圖,再加一句 prompt,直接就給你變成了視頻。

輸入圖像:

驅(qū)動(dòng)提示:

在一個(gè)低角度拍攝的畫(huà)面中,男子正沿著街道行走,周?chē)瓢傻哪藓鐭粽樟亮怂纳碛啊?/p>

輸出:

Mode 03:Image to Video(圖像生成視頻)

這個(gè)不用解釋了,你給它一張圖片,它給你秒變一段視頻。多種風(fēng)格,隨你選擇。

美圖一秒變電影,這也太夢(mèng)幻了吧。

輸入圖像:

輸出:

Mode 04:Stylization(風(fēng)格化)

如果你有一段原視頻,但是效果不夠炸裂,怎么辦?

只需要把你想要疊加的風(fēng)格用圖片或者文字疊加上去,多魔幻的風(fēng)格都立馬生成,秒變好萊塢大片。

原始視頻:

驅(qū)動(dòng)圖像:

輸出:

Mode 05:Storyboard(故事版)

將模擬的場(chǎng)景一拉,就變成了風(fēng)格化和動(dòng)畫(huà)化的渲染圖,前期制作一鍵簡(jiǎn)化。

輸出 & 輸出對(duì)比:

Mode 06:Mask(掩碼)

在你的視頻中分離出特定的對(duì)象,然后通過(guò) prompt,想怎么改就怎么改,比如下圖中,金毛秒變斑點(diǎn)狗。

輸入視頻:

驅(qū)動(dòng)提示:

一只身上有黑色斑點(diǎn)的白毛狗。

輸出:

Mode 07:Render(渲染)

只要輸入圖像或提示,無(wú)紋理的渲染立馬變成現(xiàn)實(shí)的輸出,深度和真實(shí)感震撼人心。

輸入視頻:

輸出:

Mode 08:Customization(個(gè)性化)

通過(guò)自定義,讓原視頻個(gè)性化大變身,保真度還超高。

點(diǎn)擊就看外國(guó)小哥秒變海龜人。

輸入 & 輸出對(duì)比:

訓(xùn)練圖像:

從生成結(jié)果來(lái)看,Gen-2 的前景,實(shí)在是太令人著迷了。(Gen-1 的內(nèi)測(cè)申請(qǐng)?jiān)谶@里,http://t.cn/ A6Cu1cdy)。

雖然 Meta 和谷歌也有類(lèi)似的文本到視頻模型(Make-a-Video 和 Phenaki),生成的剪輯更長(zhǎng)、更連貫。

但這些體量更大的公司并沒(méi)有投入多大的資源,相比之下,Runway 的團(tuán)隊(duì)只有區(qū)區(qū) 45 人。

其實(shí),Runway 自 2018 年以來(lái),就一直專(zhuān)注于研究 AI 工具,并在去年年底籌集了 5000 萬(wàn)美元。

有趣的是,Stable Diffusion 的初始版本,就有 Runway 的貢獻(xiàn)。只不過(guò)后來(lái)被 Stability AI 普及,并有了更進(jìn)一步的發(fā)展。

而這也告訴我們,初創(chuàng)公司在生成式 AI 上的潛力,是多么驚人。

一大波展示

提示:一只眼睛的特寫(xiě)鏡頭

提示:無(wú)人機(jī)拍攝的沙漠景觀

參考資料:

  • https://research.runwayml.com/gen2

  • https://www.theverge.com/2023/3/20/23648113/text-to-video-generative-ai-runway-ml-gen-2-model-access

本文來(lái)自微信公眾號(hào):新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI模型,Gen2

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知