就說 Sora 有多火吧。生成的視頻上線一個、瘋傳一個。
作者小哥新上傳的效果,很快引來圍觀。
失敗案例都讓人看得上癮。
將近 1 萬人點贊。
學術圈更炸開鍋了,各路大佬紛紛開麥。
紐約大學助理教授謝賽寧(ResNeXt 的一作)直言,Sora 將改寫整個視頻生成領域。
英偉達高級研究科學家 Jim Fan 高呼,這就是視頻生成的 GPT-3 時刻?。∮绕湓诩夹g報告發(fā)布后,討論變得更加有趣。因為其中諸多細節(jié)不是十分明確,所以大佬們也只能猜測。
包括“Sora 是一個數據驅動的物理引擎”、“Sora 建立在 DiT 模型之上、參數可能僅 30 億”等等。所以,Sora 為啥能如此驚艷?它對視頻生成領域的意義是?這不,很快就有了一些可能的答案。
視頻生成的 GPT-3 時刻
總的來說,Sora 是一個在不同時長、分辨率和寬高比的視頻及圖像上訓練而成的擴散模型,同時采用了 Transformer 架構,也就是一種“擴散型 Transformer”。
關于技術細節(jié),官方報告簡單提了以下 6 點:
一是視覺數據的“創(chuàng)新轉化”。
與大語言模型中的 token 不同,Sora 采用的是“Patches(補片)”來統(tǒng)一不同的視覺數據表現形式。
如下圖所示,在具體操作中,模型先將視頻壓縮到低維潛空間中,然后將它們表示分解為時空補片,從而將視頻轉換為補片。(啊這,說了又仿佛什么都沒說)
二是訓練了一個視頻壓縮網絡。
它可以降低視覺數據維度,輸入視頻,輸出時空上壓縮的潛表示。Sora 就在這上面完成訓練。相應地,OpenAI 也訓練了一個專門的解碼器。
三是時空補片技術(Spacetime latent patches)。
給定一個壓縮的輸入視頻,模型提取一系列時空補片,充當 Transformer 的 token。正是這個基于補片的表示讓 Sora 能夠對不同分辨率、持續(xù)時間和長寬比的視頻和圖像進行訓練。
在推理時,模型則通過在適當大小的網格中排列隨機初始化的補片來控制生成視頻的大小。
四是擴展 Transformer 也適用于視頻生成的發(fā)現。
OpenAI 在這項研究中發(fā)現,擴散型 Transformer 同樣能在視頻模型領域中完成高效擴展。下圖展示出隨著訓練資源的增加,樣本質量明顯提升(固定種子和輸入條件)。
五是視頻多樣化上的一些揭秘。
和其他模型相比,Sora 能夠 hold 住各種尺寸的視頻,包括不同分辨率、時長、寬高比等等。
也在構圖和布局上優(yōu)化了更多,如下圖所示,很多業(yè)內同類型模型都會盲目裁剪輸出視頻為正方形,造成主題元素只能部分展示,但 Sora 可以捕捉完整的場景:
報告指出,這都要歸功于 OpenAI 直接在視頻數據的原始尺寸上進行了訓練。
最后,是語言理解方面上的功夫。在此,OpenAI 采用了 DALL?E 3 中引入的一種重新標注技術,將其應用于視頻。
除了使用描述性強的視頻說明進行訓練,OpenAI 也用 GPT 來將用戶簡短的提示轉換為更長的詳細說明,然后發(fā)送給 Sora。這一系列使得 Sora 的文字理解能力也相當給力。
關于技術的介紹報告只提了這么多,剩下的大篇幅都是圍繞 Sora 的一系列效果展示,包括文轉視頻、視頻轉視頻,以及圖片生成。
可以看到,諸如其中的“patch”到底是怎么設計的等核心問題,文中并沒有詳細講解。有網友吐槽,OpenAI 果然還是這么地“Close”(狗頭)。正是如此,各路大佬和網友們的猜測也是五花八門。
謝賽寧分析:
1、Sora 應該是建立在 DiT 這個擴散 Transformer 之上的。
簡而言之,DiT 是一個帶有 Transformer 主干的擴散模型,它 = [VAE 編碼器 + ViT + DDPM + VAE 解碼器]。
謝賽寧猜測,在這上面,Sora 應該沒有整太多花哨的額外東西。
2、關于視頻壓縮網絡,Sora 可能采用的就是 VAE 架構,區(qū)別就是經過原始視頻數據訓練。
而由于 VAE 是一個 ConvNet,所以 DiT 從技術上來說是一個混合模型。
3、Sora 可能有大約 30 億個參數。
謝賽寧認為這個推測不算不合理,因 Sora 可能還真并不需要人們想象中的那么多 GPU 來訓練,如果真是如此,Sora 的后期迭代也將會非???。
英偉達 AI 科學家 Jim Fan 則認為:
Sora 應該是一個數據驅動的物理引擎。
Sora 是對現實或幻想世界的模擬,它通過一些去噪、梯度下降去學習復雜渲染、“直覺”物理、長鏡頭推理和語義基礎等。
比如這個效果中,提示詞是兩艘海盜船在一杯咖啡里航行廝殺的逼真特寫視頻。
Jim Fan 分析,Sora 首先要提供兩個 3D 資產:不同裝飾的海盜船;必須在潛在空間中解決 text-to-3D 的隱式問題;并且要兩艘船避開彼此的路線,兼顧咖啡液體的流體力學、保持真實感、帶來仿佛光追般的效果。
有一些觀點認為,Sora 只是在 2D 層面上控制像素。Jim Fan 明確反對這種說法。他覺得這就像說 GPT-4 不懂編碼,只是對字符串進行采樣。
不過他也表示,Sora 還無法取代游戲引擎開發(fā)者,因為它對于物理的理解還遠遠不夠,仍然存在非常嚴重的“幻覺”。
所以他提出 Sora 是視頻生成的 GPT-3 時刻。
回到 2020 年,GPT-3 不是一個很完美的模型,但是它有力證明了上下文學習的重要性。所以不要糾結于 GPT-3 的缺陷,多想想后面的 GPT-4。
除此之外,還有膽大的網友甚至懷疑 Sora 用上了虛幻引擎 5 來創(chuàng)建部分訓練數據。
他甚至挨個舉例分析了好幾個視頻中的效果以此佐證猜想:
不過反駁他的人也不少,理由包括“人走路的鏡頭明顯還是奇怪,不可能是引擎的效果”、“YouTube 上有數十億小時的各種視頻,ue5 的用處不大吧”……
如此種種,暫且不論。
最后,有網友表示,盡管不對 OpenAI 放出更多細節(jié)抱有期待,但還是很想知道 Sora 在視頻編碼、解碼,時間插值的額外模塊等方面是不是有創(chuàng)新。
OpenAI 估值達 800 億美元
在 Sora 引發(fā)全球關注的同時,OpenAI 的估值也再次拉高,成為全球第三高估值的科技初創(chuàng)公司。
隨著最新一要約收購完成,OpenAI 的估值正式達到 800 億美元,僅次于字節(jié)跳動和 SpaceX。
這筆交易由風投公司 Thrive Capital 牽頭,外部投資者可以從一些員工手中購買股份,去年年初時 OpenAI 就完成過類似交易,使其當時的估值達到 290 億美元。
而在 Sora 發(fā)布后,GPT-4 Turbo 也大幅降低速率限制,提高 TPM(每分鐘最大 token 數量),較上一次實現 2 倍提升??偛?Brockman 還親自帶貨宣傳。
但與此同時,OpenAI 申請注冊“GPT”商標失敗了。理由是“GPT”太通用。
One More Thing
值得一提的是,有眼尖的網友發(fā)現,昨天 Stability AI 也發(fā)布了 SVD 1.1。
但似乎在 Sora 發(fā)布不久后火速刪博。
有人銳評,這不是翻版汪峰么?不應該刪,應該返蹭個熱度。
這還玩?zhèn)€ p 啊。
還有人感慨,Sora 一來,立馬就明白張楠為啥要聚焦剪映了。
以及賣課大軍也聞風而動,把商機拿捏死死的。
參考鏈接:
[1]https://openai.com/research/video-generation-models-as-world-simulators
[2]https://twitter.com/DrJimFan/status/1758210245799920123
[3]https://x.com/sainingxie/status/1758433676105310543?s=20
[4]https://twitter.com/charliebholtz/status/1758200919181967679
[5]https://www.reuters.com/technology/openai-valued-80-billion-after-deal-nyt-reports-2024-02-16/
本文來自微信公眾號:量子位 (ID:QbitAI),作者:明敏 豐色
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。