1.2 萬人朝圣 CVPR，華人學(xué)者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

新智元 2024/6/20 20:51:35 責(zé)編：問舟

評論：

一年一度 CVPR 最佳論文放榜了！剛剛結(jié)束開幕演講上，公布了 2 篇最佳論文、2 篇最佳學(xué)生論文、榮譽(yù)提名等獎(jiǎng)項(xiàng)。值得一提的是，今年北大上交摘得最佳論文提名桂冠，上科大奪得最佳學(xué)生論文。

2024 年 CVPR 會(huì)議將在美國西雅圖拉開帷幕，根據(jù)官方的公告，本屆會(huì)議已經(jīng)成為 CVPR 歷史上規(guī)模最大、參與人數(shù)最多的一屆，截至 6 月 19 日，現(xiàn)場參會(huì)人數(shù)已超過 1.2 萬人。

此外，近年來的論文接收數(shù)量也水漲船高，共有 11532 篇提交論文，錄用率為 23.58%，比去年的 9155 篇論文多出了 2000 多篇。

1.2 萬人朝圣 CVPR，華人學(xué)者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

由于開年 Sora 模型帶起的視頻生成的熱潮，今年 CVPR 接收論文數(shù)量最多的領(lǐng)域就是「圖像視頻的合成與生成」，緊隨其后的兩個(gè)領(lǐng)域分別是「多視角和傳感器的 3D」以及「人體：面部、軀體、姿勢、手勢和移動(dòng)」。

1.2 萬人朝圣 CVPR，華人學(xué)者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

從會(huì)議現(xiàn)場的照片中，也能肉眼感受到 CVPR 的熱烈程度。

1.2 萬人朝圣 CVPR，華人學(xué)者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

揭秘 Sora 訓(xùn)練技巧

Sora 研究團(tuán)隊(duì)的負(fù)責(zé)人 Tim Brooks 也在研討會(huì)上發(fā)表了演講，揭秘了 Sora 模型的一些訓(xùn)練技巧以及視頻生成模型未來的新功能。

1.2 萬人朝圣 CVPR，華人學(xué)者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

演講中，Brooks 表示自己看好 Transformer 架構(gòu)的可擴(kuò)展性，如果算力足夠，我們有望借此實(shí)現(xiàn)世界模擬器。

此外他也分享了一些訓(xùn)練模型的心得，比如不要為了某個(gè)特定任務(wù)去調(diào)整模型架構(gòu)，而是先考慮讓數(shù)據(jù)適應(yīng)任務(wù)。

比如，Sora 在訓(xùn)練時(shí)的技巧就多與數(shù)據(jù)有關(guān)，包括使用不同比例的圖像和視頻，以及搭配字幕訓(xùn)練。

1.2 萬人朝圣 CVPR，華人學(xué)者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

有推特網(wǎng)友表示，Brooks 的演講堪比追星現(xiàn)場，都差點(diǎn)擠不進(jìn)去。

1.2 萬人朝圣 CVPR，華人學(xué)者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

當(dāng)然，最重磅的還是 CVPR 在今天凌晨的大會(huì)開幕演講上。正式官宣了 2024 年最佳論文、最佳學(xué)生論文等大獎(jiǎng)的得主。

該獎(jiǎng)項(xiàng)每年都會(huì)表彰在計(jì)算機(jī)視覺、人工智能（AI）、機(jī)器學(xué)習(xí)（ML）、增強(qiáng)現(xiàn)實(shí)、虛擬現(xiàn)實(shí)和混合現(xiàn)實(shí)（AR / VR / MR）、深度學(xué)習(xí)等領(lǐng)域的頂尖研究。

今年，CVPR 從超過 11,500 篇論文提交中，選出了以下 10 篇最佳論文 —— 是 2023 年的兩倍之多。

1.2 萬人朝圣 CVPR，華人學(xué)者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

最佳論文

題目：Generative Image Dynamics

作者：Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynsk

機(jī)構(gòu)：谷歌研究院

1.2 萬人朝圣 CVPR，華人學(xué)者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Li_Generative_Image_Dynamics_CVPR_2024_paper.pdf

在這項(xiàng)工作中，作者提出了一種從單張靜態(tài)圖片中建模自然振蕩動(dòng)態(tài)效果的新方法。該方法能夠從單張圖片生成照片般真實(shí)的動(dòng)畫，并顯著優(yōu)于現(xiàn)有的基準(zhǔn)方法。此外，他們還展示了在多個(gè)后續(xù)應(yīng)用中的潛力，例如創(chuàng)建無縫循環(huán)或交互式圖像動(dòng)態(tài)效果。

題目：Rich Human Feedback for Text-to-Image Generation

作者：Youwei Liang, Junfeng He, Gang Li, Peizhao Li, Arseniy Klimovskiy, Nicholas Carolan, Jiao Sun, Jordi Pont-Tuset, Sarah Young, Feng Yang, Junjie Ke, Krishnamurthy Dj Dvijotham, Katherine M. Collins, Yiwen Luo, Yang Li, Kai J. Kohlhoff, Deepak Ramachandran, Vidhya Navalpakkam

機(jī)構(gòu)：，加利福尼亞大學(xué)圣地亞哥分校，谷歌研究院，南加利福尼亞大學(xué)，劍橋大學(xué)，布蘭迪斯大學(xué)

1.2 萬人朝圣 CVPR，華人學(xué)者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Liang_Rich_Human_Feedback_for_Text-to-Image_Generation_CVPR_2024_paper.pdf

在這項(xiàng)工作中，作者提出了第一個(gè)詳盡的用于圖像生成的人類反饋數(shù)據(jù)集。具體來說，他們設(shè)計(jì)并訓(xùn)練了一個(gè)多模態(tài) Transformer 來預(yù)測這些詳盡的人類反饋，并展示了一些改進(jìn)圖像生成的實(shí)例。

這篇論文的共同一作分別是華南農(nóng)業(yè)大學(xué)校友 Youwei Liang、清華校友 Junfeng He、武大及港中文校友 Gang Li。

榮譽(yù)提名

題目：EventPS: Real-Time Photometric Stereo Using an Event Camera

作者：Bohan Yu, Jieji Ren, Jin Han, Feishi Wang, Jinxiu Liang, Boxin Shi

機(jī)構(gòu)：北京大學(xué)，上海交通大學(xué)，東京大學(xué)，國立情報(bào)學(xué)研究所

1.2 萬人朝圣 CVPR，華人學(xué)者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Yu_EventPS_Real-Time_Photometric_Stereo_Using_an_Event_Camera_CVPR_2024_paper.pdf

題目：pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

作者：David Charatan, Sizhe Lester Li, Andrea Tagliasacchi, Vincent Sitzmann

機(jī)構(gòu)：麻省理工學(xué)院，西門菲莎大學(xué)，多倫多大學(xué)

1.2 萬人朝圣 CVPR，華人學(xué)者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Charatan_pixelSplat_3D_Gaussian_Splats_from_Image_Pairs_for_Scalable_Generalizable_CVPR_2024_paper.pdf

最佳學(xué)生論文

題目：Mip-Splatting: Alias-free 3D Gaussian Splatting

作者：Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Geiger

機(jī)構(gòu)：圖賓根大學(xué)，圖賓根 AI 中心，上?？萍即髮W(xué)，捷克理工大學(xué)

1.2 萬人朝圣 CVPR，華人學(xué)者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Yu_Mip-Splatting_Alias-free_3D_Gaussian_Splatting_CVPR_2024_paper.pdf

在這項(xiàng)工作中，作者提出了一種通過 3D 平滑濾波器和 2D Mip 濾波器改進(jìn) 3D 高斯?jié)姙R（3DGS）的全新方法 Mip-Splatting，用于在任何尺度上進(jìn)行無鋸齒渲染。該方法在分布外測試場景中顯著優(yōu)于當(dāng)前最先進(jìn)的方法，當(dāng)測試采樣率與訓(xùn)練采樣率不同的時(shí)候，能夠更好地適應(yīng)分布外的相機(jī)姿態(tài)和縮放因子。

值得一提的是，論文的三位一作 Zehao Yu、Anpei Chen（陳安沛）、Binbin Huang，都是上海科技大學(xué)在讀或畢業(yè)生。

題目：BioCLIP: A Vision Foundation Model for the Tree of Life

作者：Samuel Stevens, Jiaman Wu, Matthew J. Thompson, Elizabeth G. Campolongo, Chan Hee Song, David Edward Carlyn, Li Dong, Wasila M. Dahdul, Charles Stewart, Tanya Berger-Wolf, Wei-Lun Chao, and Yu Su

機(jī)構(gòu)：俄亥俄州立大學(xué)，微軟研究院，加利福尼亞大學(xué)爾灣分校，倫斯勒理工學(xué)院

1.2 萬人朝圣 CVPR，華人學(xué)者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Stevens_BioCLIP_A_Vision_Foundation_Model_for_the_Tree_of_Life_CVPR_2024_paper.pdf

在這項(xiàng)工作中，作者提出了 TREEOFLIFE-10M 和 BIOCLIP，分別是一個(gè)大規(guī)模多樣化的生物圖像數(shù)據(jù)集和一個(gè)用于生命之樹的基礎(chǔ)模型。研究表明，BIOCLIP 是一個(gè)強(qiáng)大的細(xì)粒度生物分類器，在零樣本和少樣本設(shè)置中有著出色的表現(xiàn)。

榮譽(yù)提名

題目：SpiderMatch: 3D Shape Matching with Global Optimality and Geometric Consistency

作者：Paul Roetzer, Florian Bernard

機(jī)構(gòu)：波恩大學(xué)

1.2 萬人朝圣 CVPR，華人學(xué)者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Roetzer_SpiderMatch_3D_Shape_Matching_with_Global_Optimality_and_Geometric_Consistency_CVPR_2024_paper.pdf

題目：Image Processing GNN: Breaking Rigidity in Super-Resolution

作者：Yuchuan Tian, Hanting Chen, Chao Xu, Yunhe Wang

機(jī)構(gòu)：北京大學(xué)，華為諾亞方舟實(shí)驗(yàn)室

1.2 萬人朝圣 CVPR，華人學(xué)者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Tian_Image_Processing_GNN_Breaking_Rigidity_in_Super-Resolution_CVPR_2024_paper.pdf

題目：Objects as Volumes: A Stochastic Geometry View of Opaque Solids

作者：Bailey Miller, Hanyu Chen, Alice Lai, Ioannis Gkioulekas

機(jī)構(gòu)：卡內(nèi)基梅隆大學(xué)

1.2 萬人朝圣 CVPR，華人學(xué)者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Miller_Objects_as_Volumes_A_Stochastic_Geometry_View_of_Opaque_Solids_CVPR_2024_paper.pdf

題目：Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods

作者：Mingqi Jiang, Saeed Khorram, Li Fuxin

機(jī)構(gòu)：俄勒岡州立大學(xué)

1.2 萬人朝圣 CVPR，華人學(xué)者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Jiang_Comparing_the_Decision-Making_Mechanisms_by_Transformers_and_CNNs_via_Explanation_CVPR_2024_paper.pdf

此外，CVPR 的主辦方電氣和電子工程師學(xué)會(huì)計(jì)算機(jī)協(xié)會(huì)（IEEE Computer Society, CS），也正式宣布了模式分析和機(jī)器智能技術(shù)社區(qū)（TCPAMI）的獎(jiǎng)項(xiàng)。

1.2 萬人朝圣 CVPR，華人學(xué)者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

Longuet-Higgins 獎(jiǎng)

該獎(jiǎng)項(xiàng)授予那些經(jīng)得起時(shí)間檢驗(yàn)的論文，2024 年的 Longuet-Higgins 獎(jiǎng)表彰了 2014 年在 CVPR 上發(fā)表的最具影響力的論文。

2024 年獲獎(jiǎng)?wù)撸篟ich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation（2014）

作者：Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik

機(jī)構(gòu)：加利福尼亞大學(xué)伯克利分校，ICSI

1.2 萬人朝圣 CVPR，華人學(xué)者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

論文地址：https://www.cv-foundation.org/ openaccess / content_cvpr_2014 / papers / Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf

在這項(xiàng)工作中，作者通過（1）標(biāo)記圖像中不合理或與文本不匹配的區(qū)域，以及（2）注釋文本提示中被誤表示或缺失的詞語，來豐富反饋信號。

具體來說，他們在 1.8 萬張生成圖像（RichHF-18K）上收集了豐富的人類反饋，并訓(xùn)練了一個(gè)多模態(tài) Transformer 來自動(dòng)預(yù)測這些反饋。

實(shí)驗(yàn)結(jié)果展示了預(yù)測的豐富人類反饋可以用于改進(jìn)圖像生成，例如，通過選擇高質(zhì)量的訓(xùn)練數(shù)據(jù)來微調(diào)生成模型，或者通過創(chuàng)建帶有預(yù)測熱圖的掩碼來修補(bǔ)問題區(qū)域。

值得注意的是，這些改進(jìn)不僅適用于生成反饋數(shù)據(jù)的模型（如 Stable Diffusion 變體），還可以推廣到其他模型上（如 Muse）。

年輕研究員獎(jiǎng)

該獎(jiǎng)項(xiàng)表彰在獲得博士學(xué)位七年內(nèi)對計(jì)算機(jī)視覺領(lǐng)域作出杰出研究貢獻(xiàn)的一到兩名研究人員。

2024 年獲獎(jiǎng)?wù)撸篈ngjoo Kanazawa, Carl Vondrick

1.2 萬人朝圣 CVPR，華人學(xué)者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

Angjoo Kanazawa 是加利福尼亞大學(xué)伯克利分校電氣工程與計(jì)算機(jī)科學(xué)系的助理教授，領(lǐng)導(dǎo) BAIR 下的 Kanazawa AI Research（KAIR）實(shí)驗(yàn)室，并在 Wonder Dynamics 的顧問委員會(huì)任職。

此前，她在馬里蘭大學(xué)帕克分校完成了計(jì)算機(jī)科學(xué)博士學(xué)位，導(dǎo)師是 David Jacobs。之后，來到 UC 伯克利的 BAIR 做博士后研究，導(dǎo)師是 Jitendra Malik、Alexei A. Efros 和 Trevor Darrell。此外，還曾在 Google Research 擔(dān)任研究科學(xué)家。

眾所周知，我們生活在一個(gè)動(dòng)態(tài)的 3D 世界中，人和動(dòng)物不斷與環(huán)境互動(dòng)。那么，我們該如何構(gòu)建一個(gè)系統(tǒng)，從日常的照片和視頻中捕捉、感知并理解這個(gè) 4D 世界？又該如何從圖像和視頻的觀測中學(xué)習(xí) 4D 世界的先驗(yàn)知識呢？

Angjoo Kanazawa 的研究方向涵蓋了計(jì)算機(jī)視覺、計(jì)算機(jī)圖形學(xué)和機(jī)器學(xué)習(xí)，并致力于回答上面這些問題。

1.2 萬人朝圣 CVPR，華人學(xué)者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

Carl Vondrick 是哥倫比亞大學(xué)計(jì)算機(jī)科學(xué)系的教授，研究方向主要集中在計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)及其應(yīng)用。

此前，他于 2011 年在加利福尼亞大學(xué)爾灣分校獲得學(xué)士學(xué)位，導(dǎo)師是 Deva Ramanan。之后，于 2017 年在 MIT 獲得博士學(xué)位，導(dǎo)師是 Antonio Torralba。此外，還曾在谷歌的機(jī)器感知團(tuán)隊(duì)擔(dān)任研究科學(xué)家，并在 Cruise 擔(dān)任訪問研究員。

具體來說，他的研究通過訓(xùn)練機(jī)器觀察和與環(huán)境互動(dòng)，旨在創(chuàng)建穩(wěn)健且多功能的感知模型。實(shí)驗(yàn)室經(jīng)常研究如何利用大量未標(biāo)記數(shù)據(jù)進(jìn)行任務(wù)和模態(tài)遷移。其他研究方向包括場景動(dòng)態(tài)、聲音和語言、可解釋模型以及機(jī)器人感知等。

Thomas Huang 紀(jì)念獎(jiǎng)

該獎(jiǎng)項(xiàng)于 2020 年設(shè)立，以紀(jì)念 Thomas S. Huang，他是其時(shí)代計(jì)算機(jī)視覺、模式識別和人機(jī)交互領(lǐng)域的杰出人物。該獎(jiǎng)項(xiàng)旨在表彰和致敬在計(jì)算機(jī)視覺社區(qū)中長期服務(wù)、研究和指導(dǎo)的杰出個(gè)人。

2024 年獲獎(jiǎng)?wù)撸篈ndrea Vedaldi

1.2 萬人朝圣 CVPR，華人學(xué)者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場