出品 / 新浪科技(ID:techsina)
作者 / 鄭峻
不約而同,同日出招。兩個(gè) AI 巨頭在同一天各自放出了自己的 AI 新核武器,OpenAI 的文生視頻模型 Sora 又一次贏得了滿堂彩。Sora 的驚艷亮相,不僅碾壓了諸多 AGI 視頻同行,更有可能改變電影電視廣告游戲行業(yè)的未來游戲規(guī)則。
谷歌新模式性能完勝
周四,谷歌突然發(fā)布了新一代多模態(tài)大模型 Gemini 1.5 Pro,在與 OpenAI 的大模型之戰(zhàn)中加速超越。這是業(yè)界迄今最強(qiáng)的大語言模型,最高可支持 10,000K Token 上下文,直接將性能提升到了百萬級別,在性能上完全秒殺了 OpenAI 的 GPT-4 Turbo。
百萬級別 Token 意味著什么?谷歌 AI 項(xiàng)目負(fù)責(zé)人杰夫?迪恩 (Jeff Dean) 解釋說,在 Gemini 1.5 Pro 百萬級別上下文窗口支持能力下,用戶可以完成復(fù)雜的內(nèi)容交互,輕松解析整本圖書、電影、播客,理解非常長的文檔,甚至是數(shù)百個(gè)文件數(shù)十萬行的代碼庫。
Gemini 1.5 Pro 的發(fā)布,意味著谷歌在和 OpenAI 的軍備競賽中占據(jù)了強(qiáng)大的性能優(yōu)勢。相比之下,OpenAI 的 GPT-4 Turbo 只能處理 128k Token,而且近期更是出現(xiàn)了性能下滑的不利狀況,直到上個(gè)月發(fā)布更新之后才有所改善。
然而,OpenAI 并沒有讓谷歌獨(dú)美。就在同一天,他們發(fā)布了文本生成視頻的 AI 模型 Sora,只需文本就能自動生成視頻;繼文本模型 ChatGPT 和圖片模型 Dall-E 之后,OpenAI 又開始顛覆視頻領(lǐng)域。
相比谷歌 Gemini 1.5 Pro 基于數(shù)據(jù)性能的硬實(shí)力優(yōu)勢,Sora 基于視覺美學(xué)的驚艷表現(xiàn),顯然更容易讓人印象深刻,迅速成為了社交網(wǎng)站上的熱點(diǎn)。
以假亂真細(xì)節(jié)驚艷
Sora 到底驚艷在哪里?OpenAI 展示了多段 Sora 制作的視頻內(nèi)容,光是這些片段,就已經(jīng)足夠讓人大跌眼鏡。OpenAI 在官方博客中寫道,Sora 不僅可以理解用戶的需求,還知道這些事物在現(xiàn)實(shí)世界如何存在。
只需要輸入一段文本,Sora 就能自動生成最長一分鐘的高清視頻。令人難以置信的是,Sora 不僅可以準(zhǔn)確把握用戶文本中的復(fù)雜意思,并且還能分拆出不同的元素,將其轉(zhuǎn)換為有具體創(chuàng)意構(gòu)思的視頻內(nèi)容,看起來就像是專業(yè)導(dǎo)演、攝像和剪輯的作品。
一位戴著墨鏡、穿著皮衣的時(shí)尚女子走在雨后夜晚的東京市區(qū)街道上,抹了鮮艷唇彩的唇角微微翹起,即便戴著墨鏡也能看到她的微笑,地面的積水映出了她的身影和燈紅酒綠的霓虹燈;熱鬧非凡的唐人街正在進(jìn)行舞龍表演,熙熙攘攘的人群目光都聚焦在躍動的彩龍身上,整個(gè)環(huán)境的喜慶氛圍仿佛令人身臨其境。
與此前的 AI 視頻存在明顯塑料感不同,此次 Sora 制作的視頻在逼真度和藝術(shù)感方面有著顯著差別:微微卷曲的人物頭發(fā),女人臉上的黑痣粉刺,地面積水倒映的霓虹光影,街頭商販擺賣的諸多食品,天空飄落的櫻花細(xì)雪,細(xì)節(jié)的精細(xì)度幾乎已經(jīng)做到了以假亂真。
更令人驚訝的是,Sora 視頻在構(gòu)圖、色彩、創(chuàng)意和運(yùn)鏡方面,都呈現(xiàn)出明顯的電影風(fēng)格,無論是一鏡到底還是多機(jī)位都可以無縫切換,甚至還有“演員”的表情神態(tài),這是此前的文生視頻產(chǎn)品所不具備的。OpenAI 一出手就將整個(gè) AI 視頻行業(yè)提升了一個(gè)級別。
雖然 Sora 制作的視頻還沒有到完美的地步,仔細(xì)看還能看出“穿幫”之處,人物吃過的餅干甚至?xí)旰脽o損,但在影像畫質(zhì)上已經(jīng)較此前的 AI 視頻有了質(zhì)的飛躍,甚至有了電影的質(zhì)感。而且,僅僅根據(jù)一段抽象的文字就能制作類電影的多鏡頭視頻,這種語義理解和鏡頭運(yùn)用能力更是接近了人類導(dǎo)演、攝像與剪輯的水平。顯然,視頻領(lǐng)域的 ChatGPT 時(shí)刻已經(jīng)到來。
AI 進(jìn)化速度令人震驚
Sora 發(fā)布之后,網(wǎng)絡(luò)一片驚嘆,幾乎搶盡了 Gemini 的風(fēng)頭。AI 的進(jìn)化速度實(shí)在令人震驚。要知道,此時(shí)距離 OpenAI 推出 ChatGPT,開啟生成式 AI 時(shí)代,僅僅過去了 14 個(gè)月時(shí)間。直到去年,我們才剛剛熟悉文本生成圖片的產(chǎn)品,而僅僅半年前,MidJourney 創(chuàng)作的 AI 圖片里還會出現(xiàn)六指人物。而現(xiàn)在,Sora 的視頻就已經(jīng)讓所有人開始感受到現(xiàn)實(shí)和虛擬的界限模糊。
雖然 OpenAI 的 GPT-4 Turbo 此前出現(xiàn)了性能下滑和速度變慢的狀況,令人擔(dān)心生成式 AI 的增長遭遇了瓶頸;但 Sora 的發(fā)布無疑打消了所有人的擔(dān)憂。云計(jì)算公司 Box 創(chuàng)始人兼 CEO 列維 (Aaron Levie) 在 Sora 發(fā)布之后感慨說,“如果有人還擔(dān)心 AI 進(jìn)化速度會變慢的話,我們又一次看到了完全相反的典范?!?/p>
目前 Sora 只面向邀請的制作者和安全專家開放測試,發(fā)現(xiàn)和解決可能的安全問題,還沒有宣布正式的公測時(shí)間表。畢竟在虛假信息充斥的互聯(lián)網(wǎng),DeepFake 的道德問題也已經(jīng)成為了關(guān)注焦點(diǎn),像 Sora 這樣以假亂真的視頻一旦被濫用,可能會引發(fā)災(zāi)難性后果。
在發(fā)布 Sora 的幾乎同一時(shí)間,OpenAI 還完成了一項(xiàng)要約售股交易,并不是融資用于公司用途,而是允許員工向以 Thrive Capital 牽頭的風(fēng)投機(jī)構(gòu)出售現(xiàn)有股份套現(xiàn)。值得一提的是,作為 OpenAI 董事會成員,奧特曼自己并不持有公司股票,估值飆升并不能給他帶來巨額財(cái)富。
此次交易對 OpenAI 的整體估值達(dá)到了 800 億美元,較之去年年初的 300 億美元飆升了兩倍多。按照投融資市場調(diào)研公司 CB Insights 統(tǒng)計(jì),OpenAI 已經(jīng)成為全球估值最高的創(chuàng)業(yè)公司之一,僅次于字節(jié)跳動和 SpaceX。
實(shí)際上,此次交易本應(yīng)在去年 11 月完成,只是因?yàn)閵W特曼與董事會的沖突風(fēng)波才被迫擱置。隨著奧特曼重新回到 OpenAI CEO 職位,投資者再次給這家 AI 巨頭投出了信任票。顯然,在 Sora 正式發(fā)布之后,OpenAI 的估值還會進(jìn)一步飆升。
巨頭出手碾壓 AGI 同行
那么,令人驚艷的文本生視頻 Sora 究竟會帶來哪些沖擊?
AGI 視頻同行無疑是遭受最直接沖擊的。Sora 發(fā)布之后,AI 視頻創(chuàng)業(yè)公司 Runway CEO 瓦倫祖拉 (Cristóbal Valenzuela) 在 X 平臺 (此前的推特) 上簡單發(fā)布了兩個(gè)字,“Game On.”(競爭開始了)。幾個(gè)月前,Runway 剛剛發(fā)布了 Gen-2 視頻模型。而另一家 AI 視頻公司 Stability 的 CEO 莫斯塔克 (Emad Mostaque) 則直接感慨,“奧特曼真是個(gè)魔術(shù)師。”
Runway 創(chuàng)辦已有五年時(shí)間,在 AI 視頻領(lǐng)域占據(jù)著先發(fā)優(yōu)勢,已經(jīng)得到了好萊塢主流片場的使用。去年拿到七項(xiàng)奧斯卡大獎(jiǎng)的年度影片《瞬息全宇宙》就使用了 Runway 來制作 AI 視頻。在《瞬息全宇宙》大獲成功之后,Runway 新一輪融資估值也水漲船高,達(dá)到了 15 億美元,是一年之前估值的三倍。
文生視頻領(lǐng)域是目前最熱的創(chuàng)業(yè)領(lǐng)域。過去幾個(gè)月時(shí)間,隨著生成式 AI 熱潮涌動,也涌現(xiàn)出了不少文本生視頻和圖片生視頻的創(chuàng)業(yè)公司。A16z 的 AI 投資合伙人摩爾 (Justin Moore) 列出了他所跟蹤的 20 多家文生視頻創(chuàng)業(yè)團(tuán)隊(duì),其中不乏 Pika、Zeroscope 這樣一度引發(fā)網(wǎng)絡(luò)驚嘆的創(chuàng)業(yè)新貴。
去年年底,斯坦福華人畢業(yè)生創(chuàng)辦的 Pika 視頻一度引發(fā)了中美互聯(lián)網(wǎng)的驚嘆。得益于 AI 視頻的驚艷表現(xiàn),這家僅有四人的創(chuàng)業(yè)公司,在不到半年時(shí)間就完成了超過 5500 萬美元的三輪融資,估值飆升到了 2.5 億美元。
但現(xiàn)在,AI 巨頭 OpenAI 直接拋出了 Sora。無論是視頻時(shí)長,還是畫面精細(xì)度,還是細(xì)節(jié)完整性,或是多鏡頭拍攝,Sora 都遠(yuǎn)遠(yuǎn)超越了這些小創(chuàng)業(yè)公司的視頻,用碾壓來形容也并不為過。雖然 AI 視頻領(lǐng)域還有著巨大的提升和增長空間,但這些小公司的未來是否有能力與 OpenAI 競爭依然是個(gè)巨大的疑問。
左右好萊塢勞資談判
不過,Sora 影響的不僅是其他 AGI 視頻創(chuàng)業(yè)公司的生存空間,更會改變整個(gè)好萊塢以及電影、電視、廣告、游戲行業(yè)的未來游戲規(guī)則。
好萊塢使用 AI 制作圖片和視頻,并不是什么新鮮事,從 CG (電腦動畫)、VR 到 AI,影視娛樂行業(yè)一直是高新技術(shù)的最先采用者。然而,與其他技術(shù)不同,AI 工具始終是扎在好萊塢從業(yè)人員心中的一根刺。
除了《瞬息全宇宙》使用了 Runway 的 AI 視頻工具,去年 21 世紀(jì)??怂挂呀?jīng)與 IBM 沃森合作,用 AI 工具為關(guān)于 AI 主題的恐怖片《摩根》制作預(yù)告片;迪士尼旗下的漫威更完全用 AI 制作了《秘密入侵》的開頭動畫。
當(dāng)時(shí)正值好萊塢演員和編劇工會大罷工期間。而生成式 AI 在影視行業(yè)的應(yīng)用也是雙方的爭議焦點(diǎn)之一。就在雙方談判的過程中,演員編劇們得知迪士尼漫威新一季的《秘密入侵》已經(jīng)完全使用 AI 技術(shù)打造開場場景。這一消息讓雙方的談判再次擱淺。
為什么影視行業(yè)使用 AI 工具引發(fā)這么多的爭議?業(yè)內(nèi)人士主要是擔(dān)心制片方使用現(xiàn)有素材進(jìn)行 AI 訓(xùn)練,未來頻繁使用 AI 工具生成內(nèi)容,這不僅侵犯到了創(chuàng)作者已有作品的版權(quán),沒有給他們足夠的回報(bào),更會影響到創(chuàng)作者未來的工作機(jī)會和空間。
雖然去年編劇和演員們不惜讓行業(yè)停擺和自己失業(yè),換來了制片方們的暫時(shí)讓步,對 AI 工具的使用制定更多的規(guī)范。但三年后的下一次勞資談判,面對性能必然大升級的 AI,演員編劇們的處境可能會更加艱難。
電影電視 TikTok 化
隨著文生視頻模型 Sora 的驚艷亮相,或許整個(gè)好萊塢從業(yè)人員都會面臨著一個(gè)巨大的疑問:按照 AI 的指數(shù)級進(jìn)化速度,或許不需要再等待多久,AI 就可以生成一部完整劇情的短片甚至電影,從劇本到拍攝到表演到后期都可以完全搞定,那么好萊塢的未來會變成什么樣子?
拍攝《當(dāng)她醒來》恐怖電影的好萊塢導(dǎo)演戴夫?克拉克 (Dave Clark) 已經(jīng)在使用 AI 工具制作電影。在他看來,Sora 等 AI 技術(shù)帶來的并不是威脅,創(chuàng)作者需要去擁抱 AI 技術(shù),打造此前無法實(shí)現(xiàn)或是想象的內(nèi)容?!斑@是改變游戲規(guī)則的技術(shù)。你不應(yīng)該去擔(dān)心自己的工作,而應(yīng)該擔(dān)心是誰在使用這些工具。”
行業(yè)調(diào)查公司 CVL Economics 上個(gè)月發(fā)布的一項(xiàng)對 300 位好萊塢行業(yè)領(lǐng)袖的調(diào)查顯示,擔(dān)憂情緒彌漫在整個(gè)好萊塢。36% 的受訪者表示生成式 AI 已經(jīng)減少了他們公司的日常工作技能需求,72% 的受訪公司都是生成式 AI 工具的最早采用者。
更為殘酷的現(xiàn)實(shí)是,75% 的受訪者承認(rèn),生成式 AI (工具、軟件、模型) 已經(jīng)促使他們業(yè)務(wù)部門削減與合并工作崗位。這些掌控著好萊塢行業(yè)秩序的人們預(yù)計(jì),未來三年好萊塢總計(jì)會有超過 20 萬人的工作崗位會遭受 AI 沖擊,尤其是視覺特效、音效師、畫圖師等后期工作崗位。
電影《Shovel Buddies》的編劇海勒曼 (Jason Hellerman) 認(rèn)為,隨著 AI 工具的逐漸完善,未來制片方當(dāng)然可能會通過 Sora 這樣的工具生成視頻,而不再需要給一個(gè)制作團(tuán)隊(duì)支付薪酬。AI 生成的內(nèi)容也可能會創(chuàng)造一個(gè)全新的類型,但如果任何人都可以用 AI 制作視頻和電影,成為“內(nèi)容創(chuàng)作者”,這也不可避免會帶來專業(yè)水準(zhǔn)的降低。
他預(yù)測,未來每個(gè)人都可以生成自己視頻,就像是現(xiàn)在每個(gè)人都在手機(jī)上拍攝和觀看 TikTok 短視頻。習(xí)慣了短視頻的 Z 世代年輕人未來會逐漸摒棄電影和電視這樣的長內(nèi)容。也許在 AI 生成視頻的未來,電影和電視也會變成類似 TikTok 短視頻這樣的形式。
本文來自微信公眾號:新浪科技 (ID:techsina),作者:努力碼稿的小浪
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。