首頁(yè) > IT資訊>人物

谷歌 VideoPoet 負(fù)責(zé)人蔣路跳槽 TikTok！對(duì)標(biāo) Sora，AI 視頻模型大戰(zhàn)在即

新智元 2024/2/22 23:41:14 責(zé)編：清源

評(píng)論：

感謝IT之家網(wǎng)友 lemon_meta 的線索投遞！

【新智元導(dǎo)讀】谷歌 Research Lead，負(fù)責(zé) VideoPoet 項(xiàng)目的蔣路，即將加入 TikTok，負(fù)責(zé)視頻生成 AI 的開(kāi)發(fā)。

谷歌 VideoPoet 項(xiàng)目 Research Lead，CMU 兼職教授蔣路的 Google Scholar 資料顯示已加入 TikTok。

谷歌 VideoPoet 負(fù)責(zé)人蔣路跳槽 TikTok！對(duì)標(biāo) Sora，AI 視頻模型大戰(zhàn)在即

最近，有傳聞 TikTok 招募了某篇論文的作者作為北美技術(shù)部門(mén)負(fù)責(zé)人，研發(fā)能和 Sora 對(duì)抗的視頻生成 AI。

而蔣路 3 周前在 Linkedin 上發(fā)布了離職谷歌的消息，也向外界揭開(kāi)了謎底。

他作為谷歌 VideoPoet 項(xiàng)目的負(fù)責(zé)人，將離開(kāi) Google Research，不過(guò)會(huì)留在灣區(qū)，繼續(xù)視頻生成領(lǐng)域的工作。

谷歌 VideoPoet 負(fù)責(zé)人蔣路跳槽 TikTok！對(duì)標(biāo) Sora，AI 視頻模型大戰(zhàn)在即

「人才第一，數(shù)據(jù)第二，算力第三」，謝賽寧的 AI 突破「3 要素」，已經(jīng)為大廠在未來(lái)構(gòu)建自己的 AI 護(hù)城河指明了方向。

而蔣路帶領(lǐng)谷歌團(tuán)隊(duì)在去年年底推出了在技術(shù)路線上與 Sora 相似的視頻生成技術(shù)：VideoPoet，讓他成為了世界上為數(shù)不多的有能力構(gòu)建最前沿 AI 視頻生成技術(shù)的科學(xué)家。

谷歌 VideoPoet 負(fù)責(zé)人蔣路跳槽 TikTok！對(duì)標(biāo) Sora，AI 視頻模型大戰(zhàn)在即

VideoPoet 在 Sora 發(fā)布之前就已經(jīng)將 AI 視頻的前沿推進(jìn)到了生成 10 秒長(zhǎng)，一致性非常強(qiáng)，動(dòng)作幅度大且連貫的視頻。

谷歌 VideoPoet 負(fù)責(zé)人蔣路跳槽 TikTok！對(duì)標(biāo) Sora，AI 視頻模型大戰(zhàn)在即

而與此同時(shí)，他還是 CMU 的兼職教授，有非常豐富的科研經(jīng)歷和成果。

蔣路這樣既有深厚的理論功底，又有最前沿大型項(xiàng)目的工程和管理經(jīng)驗(yàn)的復(fù)合型專(zhuān)家，自然成為了大廠必爭(zhēng)的 AI 基石型人才。

個(gè)人介紹

谷歌 VideoPoet 負(fù)責(zé)人蔣路跳槽 TikTok！對(duì)標(biāo) Sora，AI 視頻模型大戰(zhàn)在即

蔣路在 Google 擔(dān)任研究科學(xué)家和管理崗位，同時(shí)也是卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)學(xué)院語(yǔ)言技術(shù)研究所的兼職教授。

在 CMU，他不僅指導(dǎo)研究生的科研項(xiàng)目，還親自講授課程。

他的研究成果在自然語(yǔ)言處理（ACL）和計(jì)算機(jī)視覺(jué)（CVPR）等領(lǐng)域的頂級(jí)會(huì)議上屢獲佳績(jī)，還在 ACM ICMR、IEEE SLT 和 NIST TRECVID 等重要會(huì)議上獲獎(jiǎng)。

他的研究對(duì)多款谷歌產(chǎn)品的開(kāi)發(fā)和完善起到了至關(guān)重要的作用：包括 YouTube、Cloud、Cloud AutoML、Ads、Waymo 和 Translate 等。

這些產(chǎn)品每天服務(wù)全球數(shù)十億用戶。

除了上述這些內(nèi)容以外，還有另一個(gè)側(cè)面能很好地說(shuō)明蔣路學(xué)術(shù)水平的高度：他與眾多計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域的頂尖研究者都有過(guò)合作。

2017 至 2018 年期間，他是 Google Cloud AI 首批研究團(tuán)隊(duì)的創(chuàng)始成員，由李佳博士和李飛飛博士親自挑選。

隨后，他加入了 Google Research，與 Weilong Yang 博士（2019-2020）、Ce Liu 博士（2020-2021）、Madison Le（2021-2022）和 Irfan Essa 博士（2023）等人都有過(guò)合作。

此外，在卡內(nèi)基梅隆大學(xué)讀博期間，他的論文由 Tat-Seng Chua 博士和 Louis-Philippe Morency 博士共同指導(dǎo)。2017 他在 Alexander Hauptmann 博士和 Teruko Mitamura 博士的幫助下成功畢業(yè)。

他在雅虎、谷歌和微軟研究院的實(shí)習(xí)時(shí)，得到了 Liangliang Cao 博士、Yannis Kalantidis 博士、Sachin Farfade、Paul Natsev 博士、Balakrishnan Varadarajan 博士、Qiang Wang 博士和 Dongmei Zhang 博士等人的指導(dǎo)。

從他在領(lǐng)英上的履歷可以看出，很多科技大廠都留有過(guò)他的足跡。

谷歌 VideoPoet 負(fù)責(zé)人蔣路跳槽 TikTok！對(duì)標(biāo) Sora，AI 視頻模型大戰(zhàn)在即

在 CMU 和 NSF 都有過(guò)實(shí)習(xí)經(jīng)歷。

谷歌 VideoPoet 負(fù)責(zé)人蔣路跳槽 TikTok！對(duì)標(biāo) Sora，AI 視頻模型大戰(zhàn)在即

而在畢業(yè)之前，他在雅虎，谷歌，微軟都實(shí)習(xí)過(guò)。

谷歌 VideoPoet 負(fù)責(zé)人蔣路跳槽 TikTok！對(duì)標(biāo) Sora，AI 視頻模型大戰(zhàn)在即

他本科畢業(yè)于西安交通大學(xué)，研究生畢業(yè)于布魯塞爾自由大學(xué)，博士畢業(yè)于 CMU。

谷歌 VideoPoet 負(fù)責(zé)人蔣路跳槽 TikTok！對(duì)標(biāo) Sora，AI 視頻模型大戰(zhàn)在即

VideoPoet

他在谷歌帶領(lǐng)的團(tuán)隊(duì)在去年底推出的 VideoPoet，已經(jīng)用 Transformer 代替了傳統(tǒng)的 UNet，成為 AI 視頻生成當(dāng)時(shí)的 SOTA.

這項(xiàng)成就，也成為了 TikTok 相中他最主要的原因。

相比起只能生成小幅動(dòng)作的 Gen-2，VideoPoet 一次能夠生成 10 秒超長(zhǎng)，且連貫大動(dòng)作視頻，可以說(shuō)是實(shí)現(xiàn)了完全碾壓！

另外，VideoPoet 也并非基于擴(kuò)散模型，而是多模態(tài)大模型，便可擁有 T2V、V2A 等能力，或?qū)⒊蔀槲磥?lái)視頻生成的主流。

谷歌 VideoPoet 負(fù)責(zé)人蔣路跳槽 TikTok！對(duì)標(biāo) Sora，AI 視頻模型大戰(zhàn)在即

相比起其他模型，谷歌的方法是將多種視頻生成功能無(wú)縫集成到單一的大語(yǔ)言模型中，而不依賴(lài)針對(duì)各個(gè)任務(wù)分別訓(xùn)練的專(zhuān)用組件。

谷歌 VideoPoet 負(fù)責(zé)人蔣路跳槽 TikTok！對(duì)標(biāo) Sora，AI 視頻模型大戰(zhàn)在即

具體來(lái)說(shuō)，VideoPoet 主要包含以下幾個(gè)組件：

預(yù)訓(xùn)練的 MAGVIT V2 視頻 tokenizer 和 SoundStream 音頻 tokenizer，能將不同長(zhǎng)度的圖像、視頻和音頻剪輯轉(zhuǎn)換成統(tǒng)一詞匯表中的離散代碼序列。這些代碼與文本型語(yǔ)言模型兼容，便于與文本等其他模態(tài)進(jìn)行結(jié)合。
自回歸語(yǔ)言模型可在視頻、圖像、音頻和文本之間進(jìn)行跨模態(tài)學(xué)習(xí)，并以自回歸方式預(yù)測(cè)序列中下一個(gè)視頻或音頻 token。
在大語(yǔ)言模型訓(xùn)練框架中引入了多種多模態(tài)生成學(xué)習(xí)目標(biāo)，包括文本到視頻、文本到圖像、圖像到視頻、視頻幀延續(xù)、視頻修復(fù) / 擴(kuò)展、視頻風(fēng)格化和視頻到音頻等。此外，這些任務(wù)可以相互結(jié)合，實(shí)現(xiàn)額外的零樣本功能（例如，文本到音頻）。

谷歌 VideoPoet 負(fù)責(zé)人蔣路跳槽 TikTok！對(duì)標(biāo) Sora，AI 視頻模型大戰(zhàn)在即

VideoPoet 能夠在各種以視頻為中心的輸入和輸出上進(jìn)行多任務(wù)處理。其中，LLM 可選擇將文本作為輸入，來(lái)指導(dǎo)文本到視頻、圖像到視頻、視頻到音頻、風(fēng)格化和擴(kuò)圖任務(wù)的生成

使用 LLM 進(jìn)行訓(xùn)練的一個(gè)關(guān)鍵優(yōu)勢(shì)是，可以重用現(xiàn)有 LLM 訓(xùn)練基礎(chǔ)設(shè)施中引入的許多可擴(kuò)展的效率改進(jìn)。

不過(guò)，LLM 是在離散 token 上運(yùn)行的，這可能會(huì)給視頻生成帶來(lái)挑戰(zhàn)。

幸運(yùn)的是，視頻和音頻 tokenizer，可以將視頻和音頻剪輯編碼為離散 token 序列（即整數(shù)索引），并可以將其轉(zhuǎn)換回原始表示。

VideoPoet 訓(xùn)練一個(gè)自回歸語(yǔ)言模型，通過(guò)使用多個(gè) tokenizer（用于視頻和圖像的 MAGVIT V2，用于音頻的 SoundStream）來(lái)跨視頻、圖像、音頻和文本模態(tài)進(jìn)行學(xué)習(xí)。

一旦模型根據(jù)上下文生成了 token，就可以使用 tokenizer 解碼器將這些 token 轉(zhuǎn)換回可查看的表示形式。

谷歌 VideoPoet 負(fù)責(zé)人蔣路跳槽 TikTok！對(duì)標(biāo) Sora，AI 視頻模型大戰(zhàn)在即

VideoPoet 任務(wù)設(shè)計(jì)：不同模態(tài)通過(guò) tokenizer 編碼器和解碼器與 token 相互轉(zhuǎn)換。每個(gè)模態(tài)周?chē)加羞吔?token，任務(wù) token 表示要執(zhí)行的任務(wù)類(lèi)型

相比于之前的視頻生成模型，VideoPoet 有這么三個(gè)比較大的優(yōu)勢(shì)。

一個(gè)是能生成更長(zhǎng)的視頻，一個(gè)是用戶能對(duì)生成的視頻有更好的控制能力，最后一個(gè)則是 VideoPoet 還可以根據(jù)文本提示，生成不同的運(yùn)鏡手法。

而在測(cè)試中，VideoPoet 也是拔得頭籌，碾壓了不少其它視頻生成模型。

文本保真度：

谷歌 VideoPoet 負(fù)責(zé)人蔣路跳槽 TikTok！對(duì)標(biāo) Sora，AI 視頻模型大戰(zhàn)在即

文本保真度的用戶偏好評(píng)級(jí)，即在準(zhǔn)確遵循提示方面首選視頻的百分比

動(dòng)作趣味性：

谷歌 VideoPoet 負(fù)責(zé)人蔣路跳槽 TikTok！對(duì)標(biāo) Sora，AI 視頻模型大戰(zhàn)在即

用戶對(duì)動(dòng)作趣味性的偏好評(píng)級(jí)，即在產(chǎn)生有趣的動(dòng)作方面，首選視頻的百分比

綜上可見(jiàn)，平均有 24-35% 的人認(rèn)為 VideoPoet 生成的示例比其他模型更加遵循提示，而其他模型的這一比例僅為 8-11%。

此外，41%-54% 的評(píng)估者認(rèn)為 VideoPoet 中的示例動(dòng)作更有趣，而其他模型只有 11%-21%。

而有關(guān)未來(lái)的研究方向，谷歌研究人員表示，VideoPoet 框架將會(huì)實(shí)現(xiàn)「any-to-any」的生成，比如擴(kuò)展文本到音頻、音頻到視頻，以及視頻字幕等等。

參考資料：

http://www.lujiang.info/bio.html
https://scholar.google.com/citations?user=jIKjjSYAAAAJ&hl=en

本文來(lái)自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

谷歌 VideoPoet 負(fù)責(zé)人蔣路跳槽 TikTok！對(duì)標(biāo) Sora，AI 視頻模型大戰(zhàn)在即

個(gè)人介紹

VideoPoet

文本保真度：

動(dòng)作趣味性：

相關(guān)文章

谷歌 VideoPoet 負(fù)責(zé)人蔣路跳槽 TikTok！對(duì)標(biāo) Sora，AI 視頻模型大戰(zhàn)在即