設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

谷歌 VideoPoet 負(fù)責(zé)人蔣路跳槽 TikTok!對(duì)標(biāo) Sora,AI 視頻模型大戰(zhàn)在即

新智元 2024/2/22 23:41:14 責(zé)編:清源
感謝IT之家網(wǎng)友 lemon_meta 的線索投遞!

【新智元導(dǎo)讀】谷歌 Research Lead,負(fù)責(zé) VideoPoet 項(xiàng)目的蔣路,即將加入 TikTok,負(fù)責(zé)視頻生成 AI 的開(kāi)發(fā)。

谷歌 VideoPoet 項(xiàng)目 Research Lead,CMU 兼職教授蔣路的 Google Scholar 資料顯示已加入 TikTok。

最近,有傳聞 TikTok 招募了某篇論文的作者作為北美技術(shù)部門(mén)負(fù)責(zé)人,研發(fā)能和 Sora 對(duì)抗的視頻生成 AI。

而蔣路 3 周前在 Linkedin 上發(fā)布了離職谷歌的消息,也向外界揭開(kāi)了謎底。

他作為谷歌 VideoPoet 項(xiàng)目的負(fù)責(zé)人,將離開(kāi) Google Research,不過(guò)會(huì)留在灣區(qū),繼續(xù)視頻生成領(lǐng)域的工作。

「人才第一,數(shù)據(jù)第二,算力第三」,謝賽寧的 AI 突破「3 要素」,已經(jīng)為大廠在未來(lái)構(gòu)建自己的 AI 護(hù)城河指明了方向。

而蔣路帶領(lǐng)谷歌團(tuán)隊(duì)在去年年底推出了在技術(shù)路線上與 Sora 相似的視頻生成技術(shù):VideoPoet,讓他成為了世界上為數(shù)不多的有能力構(gòu)建最前沿 AI 視頻生成技術(shù)的科學(xué)家。

VideoPoet 在 Sora 發(fā)布之前就已經(jīng)將 AI 視頻的前沿推進(jìn)到了生成 10 秒長(zhǎng),一致性非常強(qiáng),動(dòng)作幅度大且連貫的視頻。

而與此同時(shí),他還是 CMU 的兼職教授,有非常豐富的科研經(jīng)歷和成果。

蔣路這樣既有深厚的理論功底,又有最前沿大型項(xiàng)目的工程和管理經(jīng)驗(yàn)的復(fù)合型專(zhuān)家,自然成為了大廠必爭(zhēng)的 AI 基石型人才。

個(gè)人介紹

蔣路在 Google 擔(dān)任研究科學(xué)家和管理崗位,同時(shí)也是卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)學(xué)院語(yǔ)言技術(shù)研究所的兼職教授。

在 CMU,他不僅指導(dǎo)研究生的科研項(xiàng)目,還親自講授課程。

他的研究成果在自然語(yǔ)言處理(ACL)和計(jì)算機(jī)視覺(jué)(CVPR)等領(lǐng)域的頂級(jí)會(huì)議上屢獲佳績(jī),還在 ACM ICMR、IEEE SLT 和 NIST TRECVID 等重要會(huì)議上獲獎(jiǎng)。

他的研究對(duì)多款谷歌產(chǎn)品的開(kāi)發(fā)和完善起到了至關(guān)重要的作用:包括 YouTube、Cloud、Cloud AutoML、Ads、Waymo 和 Translate 等。

這些產(chǎn)品每天服務(wù)全球數(shù)十億用戶。

除了上述這些內(nèi)容以外,還有另一個(gè)側(cè)面能很好地說(shuō)明蔣路學(xué)術(shù)水平的高度:他與眾多計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域的頂尖研究者都有過(guò)合作。

2017 至 2018 年期間,他是 Google Cloud AI 首批研究團(tuán)隊(duì)的創(chuàng)始成員,由李佳博士和李飛飛博士親自挑選。

隨后,他加入了 Google Research,與 Weilong Yang 博士(2019-2020)、Ce Liu 博士(2020-2021)、Madison Le(2021-2022)和 Irfan Essa 博士(2023)等人都有過(guò)合作。

此外,在卡內(nèi)基梅隆大學(xué)讀博期間,他的論文由 Tat-Seng Chua 博士和 Louis-Philippe Morency 博士共同指導(dǎo)。2017 他在 Alexander Hauptmann 博士和 Teruko Mitamura 博士的幫助下成功畢業(yè)。

他在雅虎、谷歌和微軟研究院的實(shí)習(xí)時(shí),得到了 Liangliang Cao 博士、Yannis Kalantidis 博士、Sachin Farfade、Paul Natsev 博士、Balakrishnan Varadarajan 博士、Qiang Wang 博士和 Dongmei Zhang 博士等人的指導(dǎo)。

從他在領(lǐng)英上的履歷可以看出,很多科技大廠都留有過(guò)他的足跡。

在 CMU 和 NSF 都有過(guò)實(shí)習(xí)經(jīng)歷。

而在畢業(yè)之前,他在雅虎,谷歌,微軟都實(shí)習(xí)過(guò)。

他本科畢業(yè)于西安交通大學(xué),研究生畢業(yè)于布魯塞爾自由大學(xué),博士畢業(yè)于 CMU。

VideoPoet

他在谷歌帶領(lǐng)的團(tuán)隊(duì)在去年底推出的 VideoPoet,已經(jīng)用 Transformer 代替了傳統(tǒng)的 UNet,成為 AI 視頻生成當(dāng)時(shí)的 SOTA.

這項(xiàng)成就,也成為了 TikTok 相中他最主要的原因。

相比起只能生成小幅動(dòng)作的 Gen-2,VideoPoet 一次能夠生成 10 秒超長(zhǎng),且連貫大動(dòng)作視頻,可以說(shuō)是實(shí)現(xiàn)了完全碾壓!

另外,VideoPoet 也并非基于擴(kuò)散模型,而是多模態(tài)大模型,便可擁有 T2V、V2A 等能力,或?qū)⒊蔀槲磥?lái)視頻生成的主流。

相比起其他模型,谷歌的方法是將多種視頻生成功能無(wú)縫集成到單一的大語(yǔ)言模型中,而不依賴(lài)針對(duì)各個(gè)任務(wù)分別訓(xùn)練的專(zhuān)用組件。

具體來(lái)說(shuō),VideoPoet 主要包含以下幾個(gè)組件:

  • 預(yù)訓(xùn)練的 MAGVIT V2 視頻 tokenizer 和 SoundStream 音頻 tokenizer,能將不同長(zhǎng)度的圖像、視頻和音頻剪輯轉(zhuǎn)換成統(tǒng)一詞匯表中的離散代碼序列。這些代碼與文本型語(yǔ)言模型兼容,便于與文本等其他模態(tài)進(jìn)行結(jié)合。

  • 自回歸語(yǔ)言模型可在視頻、圖像、音頻和文本之間進(jìn)行跨模態(tài)學(xué)習(xí),并以自回歸方式預(yù)測(cè)序列中下一個(gè)視頻或音頻 token。

  • 在大語(yǔ)言模型訓(xùn)練框架中引入了多種多模態(tài)生成學(xué)習(xí)目標(biāo),包括文本到視頻、文本到圖像、圖像到視頻、視頻幀延續(xù)、視頻修復(fù) / 擴(kuò)展、視頻風(fēng)格化和視頻到音頻等。此外,這些任務(wù)可以相互結(jié)合,實(shí)現(xiàn)額外的零樣本功能(例如,文本到音頻)。

VideoPoet 能夠在各種以視頻為中心的輸入和輸出上進(jìn)行多任務(wù)處理。其中,LLM 可選擇將文本作為輸入,來(lái)指導(dǎo)文本到視頻、圖像到視頻、視頻到音頻、風(fēng)格化和擴(kuò)圖任務(wù)的生成

使用 LLM 進(jìn)行訓(xùn)練的一個(gè)關(guān)鍵優(yōu)勢(shì)是,可以重用現(xiàn)有 LLM 訓(xùn)練基礎(chǔ)設(shè)施中引入的許多可擴(kuò)展的效率改進(jìn)。

不過(guò),LLM 是在離散 token 上運(yùn)行的,這可能會(huì)給視頻生成帶來(lái)挑戰(zhàn)。

幸運(yùn)的是,視頻和音頻 tokenizer,可以將視頻和音頻剪輯編碼為離散 token 序列(即整數(shù)索引),并可以將其轉(zhuǎn)換回原始表示。

VideoPoet 訓(xùn)練一個(gè)自回歸語(yǔ)言模型,通過(guò)使用多個(gè) tokenizer(用于視頻和圖像的 MAGVIT V2,用于音頻的 SoundStream)來(lái)跨視頻、圖像、音頻和文本模態(tài)進(jìn)行學(xué)習(xí)。

一旦模型根據(jù)上下文生成了 token,就可以使用 tokenizer 解碼器將這些 token 轉(zhuǎn)換回可查看的表示形式。

VideoPoet 任務(wù)設(shè)計(jì):不同模態(tài)通過(guò) tokenizer 編碼器和解碼器與 token 相互轉(zhuǎn)換。每個(gè)模態(tài)周?chē)加羞吔?token,任務(wù) token 表示要執(zhí)行的任務(wù)類(lèi)型

相比于之前的視頻生成模型,VideoPoet 有這么三個(gè)比較大的優(yōu)勢(shì)。

一個(gè)是能生成更長(zhǎng)的視頻,一個(gè)是用戶能對(duì)生成的視頻有更好的控制能力,最后一個(gè)則是 VideoPoet 還可以根據(jù)文本提示,生成不同的運(yùn)鏡手法。

而在測(cè)試中,VideoPoet 也是拔得頭籌,碾壓了不少其它視頻生成模型。

文本保真度

文本保真度的用戶偏好評(píng)級(jí),即在準(zhǔn)確遵循提示方面首選視頻的百分比

動(dòng)作趣味性:

用戶對(duì)動(dòng)作趣味性的偏好評(píng)級(jí),即在產(chǎn)生有趣的動(dòng)作方面,首選視頻的百分比

綜上可見(jiàn),平均有 24-35% 的人認(rèn)為 VideoPoet 生成的示例比其他模型更加遵循提示,而其他模型的這一比例僅為 8-11%。

此外,41%-54% 的評(píng)估者認(rèn)為 VideoPoet 中的示例動(dòng)作更有趣,而其他模型只有 11%-21%。

而有關(guān)未來(lái)的研究方向,谷歌研究人員表示,VideoPoet 框架將會(huì)實(shí)現(xiàn)「any-to-any」的生成,比如擴(kuò)展文本到音頻、音頻到視頻,以及視頻字幕等等。

參考資料:

  • http://www.lujiang.info/bio.html

  • https://scholar.google.com/citations?user=jIKjjSYAAAAJ&hl=en

本文來(lái)自微信公眾號(hào):新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:谷歌,TikTokSora,蔣路

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知