一年一度 CVPR 最佳論文放榜了!剛剛結(jié)束開幕演講上,公布了 2 篇最佳論文、2 篇最佳學(xué)生論文、榮譽(yù)提名等獎(jiǎng)項(xiàng)。值得一提的是,今年北大上交摘得最佳論文提名桂冠,上科大奪得最佳學(xué)生論文。
2024 年 CVPR 會(huì)議將在美國西雅圖拉開帷幕,根據(jù)官方的公告,本屆會(huì)議已經(jīng)成為 CVPR 歷史上規(guī)模最大、參與人數(shù)最多的一屆,截至 6 月 19 日,現(xiàn)場參會(huì)人數(shù)已超過 1.2 萬人。
此外,近年來的論文接收數(shù)量也水漲船高,共有 11532 篇提交論文,錄用率為 23.58%,比去年的 9155 篇論文多出了 2000 多篇。
由于開年 Sora 模型帶起的視頻生成的熱潮,今年 CVPR 接收論文數(shù)量最多的領(lǐng)域就是「圖像視頻的合成與生成」,緊隨其后的兩個(gè)領(lǐng)域分別是「多視角和傳感器的 3D」以及「人體:面部、軀體、姿勢、手勢和移動(dòng)」。
從會(huì)議現(xiàn)場的照片中,也能肉眼感受到 CVPR 的熱烈程度。
揭秘 Sora 訓(xùn)練技巧
Sora 研究團(tuán)隊(duì)的負(fù)責(zé)人 Tim Brooks 也在研討會(huì)上發(fā)表了演講,揭秘了 Sora 模型的一些訓(xùn)練技巧以及視頻生成模型未來的新功能。
演講中,Brooks 表示自己看好 Transformer 架構(gòu)的可擴(kuò)展性,如果算力足夠,我們有望借此實(shí)現(xiàn)世界模擬器。
此外他也分享了一些訓(xùn)練模型的心得,比如不要為了某個(gè)特定任務(wù)去調(diào)整模型架構(gòu),而是先考慮讓數(shù)據(jù)適應(yīng)任務(wù)。
比如,Sora 在訓(xùn)練時(shí)的技巧就多與數(shù)據(jù)有關(guān),包括使用不同比例的圖像和視頻,以及搭配字幕訓(xùn)練。
有推特網(wǎng)友表示,Brooks 的演講堪比追星現(xiàn)場,都差點(diǎn)擠不進(jìn)去。
當(dāng)然,最重磅的還是 CVPR 在今天凌晨的大會(huì)開幕演講上。正式官宣了 2024 年最佳論文、最佳學(xué)生論文等大獎(jiǎng)的得主。
該獎(jiǎng)項(xiàng)每年都會(huì)表彰在計(jì)算機(jī)視覺、人工智能(AI)、機(jī)器學(xué)習(xí)(ML)、增強(qiáng)現(xiàn)實(shí)、虛擬現(xiàn)實(shí)和混合現(xiàn)實(shí)(AR / VR / MR)、深度學(xué)習(xí)等領(lǐng)域的頂尖研究。
今年,CVPR 從超過 11,500 篇論文提交中,選出了以下 10 篇最佳論文 —— 是 2023 年的兩倍之多。
最佳論文
題目:Generative Image Dynamics
作者:Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynsk
機(jī)構(gòu):谷歌研究院
在這項(xiàng)工作中,作者提出了一種從單張靜態(tài)圖片中建模自然振蕩動(dòng)態(tài)效果的新方法。該方法能夠從單張圖片生成照片般真實(shí)的動(dòng)畫,并顯著優(yōu)于現(xiàn)有的基準(zhǔn)方法。此外,他們還展示了在多個(gè)后續(xù)應(yīng)用中的潛力,例如創(chuàng)建無縫循環(huán)或交互式圖像動(dòng)態(tài)效果。
題目:Rich Human Feedback for Text-to-Image Generation
作者:Youwei Liang, Junfeng He, Gang Li, Peizhao Li, Arseniy Klimovskiy, Nicholas Carolan, Jiao Sun, Jordi Pont-Tuset, Sarah Young, Feng Yang, Junjie Ke, Krishnamurthy Dj Dvijotham, Katherine M. Collins, Yiwen Luo, Yang Li, Kai J. Kohlhoff, Deepak Ramachandran, Vidhya Navalpakkam
機(jī)構(gòu):,加利福尼亞大學(xué)圣地亞哥分校,谷歌研究院,南加利福尼亞大學(xué),劍橋大學(xué),布蘭迪斯大學(xué)
在這項(xiàng)工作中,作者提出了第一個(gè)詳盡的用于圖像生成的人類反饋數(shù)據(jù)集。具體來說,他們設(shè)計(jì)并訓(xùn)練了一個(gè)多模態(tài) Transformer 來預(yù)測這些詳盡的人類反饋,并展示了一些改進(jìn)圖像生成的實(shí)例。
這篇論文的共同一作分別是華南農(nóng)業(yè)大學(xué)校友 Youwei Liang、清華校友 Junfeng He、武大及港中文校友 Gang Li。
榮譽(yù)提名
題目:EventPS: Real-Time Photometric Stereo Using an Event Camera
作者:Bohan Yu, Jieji Ren, Jin Han, Feishi Wang, Jinxiu Liang, Boxin Shi
機(jī)構(gòu):北京大學(xué),上海交通大學(xué),東京大學(xué),國立情報(bào)學(xué)研究所
題目:pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction
作者:David Charatan, Sizhe Lester Li, Andrea Tagliasacchi, Vincent Sitzmann
機(jī)構(gòu):麻省理工學(xué)院,西門菲莎大學(xué),多倫多大學(xué)
最佳學(xué)生論文
題目:Mip-Splatting: Alias-free 3D Gaussian Splatting
作者:Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Geiger
機(jī)構(gòu):圖賓根大學(xué),圖賓根 AI 中心,上??萍即髮W(xué),捷克理工大學(xué)
在這項(xiàng)工作中,作者提出了一種通過 3D 平滑濾波器和 2D Mip 濾波器改進(jìn) 3D 高斯?jié)姙R(3DGS)的全新方法 Mip-Splatting,用于在任何尺度上進(jìn)行無鋸齒渲染。該方法在分布外測試場景中顯著優(yōu)于當(dāng)前最先進(jìn)的方法,當(dāng)測試采樣率與訓(xùn)練采樣率不同的時(shí)候,能夠更好地適應(yīng)分布外的相機(jī)姿態(tài)和縮放因子。
值得一提的是,論文的三位一作 Zehao Yu、Anpei Chen(陳安沛)、Binbin Huang,都是上海科技大學(xué)在讀或畢業(yè)生。
題目:BioCLIP: A Vision Foundation Model for the Tree of Life
作者:Samuel Stevens, Jiaman Wu, Matthew J. Thompson, Elizabeth G. Campolongo, Chan Hee Song, David Edward Carlyn, Li Dong, Wasila M. Dahdul, Charles Stewart, Tanya Berger-Wolf, Wei-Lun Chao, and Yu Su
機(jī)構(gòu):俄亥俄州立大學(xué),微軟研究院,加利福尼亞大學(xué)爾灣分校,倫斯勒理工學(xué)院
在這項(xiàng)工作中,作者提出了 TREEOFLIFE-10M 和 BIOCLIP,分別是一個(gè)大規(guī)模多樣化的生物圖像數(shù)據(jù)集和一個(gè)用于生命之樹的基礎(chǔ)模型。研究表明,BIOCLIP 是一個(gè)強(qiáng)大的細(xì)粒度生物分類器,在零樣本和少樣本設(shè)置中有著出色的表現(xiàn)。
榮譽(yù)提名
題目:SpiderMatch: 3D Shape Matching with Global Optimality and Geometric Consistency
作者:Paul Roetzer, Florian Bernard
機(jī)構(gòu):波恩大學(xué)
題目:Image Processing GNN: Breaking Rigidity in Super-Resolution
作者:Yuchuan Tian, Hanting Chen, Chao Xu, Yunhe Wang
機(jī)構(gòu):北京大學(xué),華為諾亞方舟實(shí)驗(yàn)室
題目:Objects as Volumes: A Stochastic Geometry View of Opaque Solids
作者:Bailey Miller, Hanyu Chen, Alice Lai, Ioannis Gkioulekas
機(jī)構(gòu):卡內(nèi)基梅隆大學(xué)
題目:Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods
作者:Mingqi Jiang, Saeed Khorram, Li Fuxin
機(jī)構(gòu):俄勒岡州立大學(xué)
此外,CVPR 的主辦方電氣和電子工程師學(xué)會(huì)計(jì)算機(jī)協(xié)會(huì)(IEEE Computer Society, CS),也正式宣布了模式分析和機(jī)器智能技術(shù)社區(qū)(TCPAMI)的獎(jiǎng)項(xiàng)。
Longuet-Higgins 獎(jiǎng)
該獎(jiǎng)項(xiàng)授予那些經(jīng)得起時(shí)間檢驗(yàn)的論文,2024 年的 Longuet-Higgins 獎(jiǎng)表彰了 2014 年在 CVPR 上發(fā)表的最具影響力的論文。
2024 年獲獎(jiǎng)?wù)撸篟ich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation(2014)
作者:Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik
機(jī)構(gòu):加利福尼亞大學(xué)伯克利分校,ICSI
在這項(xiàng)工作中,作者通過(1)標(biāo)記圖像中不合理或與文本不匹配的區(qū)域,以及(2)注釋文本提示中被誤表示或缺失的詞語,來豐富反饋信號。
具體來說,他們在 1.8 萬張生成圖像(RichHF-18K)上收集了豐富的人類反饋,并訓(xùn)練了一個(gè)多模態(tài) Transformer 來自動(dòng)預(yù)測這些反饋。
實(shí)驗(yàn)結(jié)果展示了預(yù)測的豐富人類反饋可以用于改進(jìn)圖像生成,例如,通過選擇高質(zhì)量的訓(xùn)練數(shù)據(jù)來微調(diào)生成模型,或者通過創(chuàng)建帶有預(yù)測熱圖的掩碼來修補(bǔ)問題區(qū)域。
值得注意的是,這些改進(jìn)不僅適用于生成反饋數(shù)據(jù)的模型(如 Stable Diffusion 變體),還可以推廣到其他模型上(如 Muse)。
年輕研究員獎(jiǎng)
該獎(jiǎng)項(xiàng)表彰在獲得博士學(xué)位七年內(nèi)對計(jì)算機(jī)視覺領(lǐng)域作出杰出研究貢獻(xiàn)的一到兩名研究人員。
2024 年獲獎(jiǎng)?wù)撸篈ngjoo Kanazawa, Carl Vondrick
Angjoo Kanazawa 是加利福尼亞大學(xué)伯克利分校電氣工程與計(jì)算機(jī)科學(xué)系的助理教授,領(lǐng)導(dǎo) BAIR 下的 Kanazawa AI Research(KAIR)實(shí)驗(yàn)室,并在 Wonder Dynamics 的顧問委員會(huì)任職。
此前,她在馬里蘭大學(xué)帕克分校完成了計(jì)算機(jī)科學(xué)博士學(xué)位,導(dǎo)師是 David Jacobs。之后,來到 UC 伯克利的 BAIR 做博士后研究,導(dǎo)師是 Jitendra Malik、Alexei A. Efros 和 Trevor Darrell。此外,還曾在 Google Research 擔(dān)任研究科學(xué)家。
眾所周知,我們生活在一個(gè)動(dòng)態(tài)的 3D 世界中,人和動(dòng)物不斷與環(huán)境互動(dòng)。那么,我們該如何構(gòu)建一個(gè)系統(tǒng),從日常的照片和視頻中捕捉、感知并理解這個(gè) 4D 世界?又該如何從圖像和視頻的觀測中學(xué)習(xí) 4D 世界的先驗(yàn)知識呢?
Angjoo Kanazawa 的研究方向涵蓋了計(jì)算機(jī)視覺、計(jì)算機(jī)圖形學(xué)和機(jī)器學(xué)習(xí),并致力于回答上面這些問題。
Carl Vondrick 是哥倫比亞大學(xué)計(jì)算機(jī)科學(xué)系的教授,研究方向主要集中在計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)及其應(yīng)用。
此前,他于 2011 年在加利福尼亞大學(xué)爾灣分校獲得學(xué)士學(xué)位,導(dǎo)師是 Deva Ramanan。之后,于 2017 年在 MIT 獲得博士學(xué)位,導(dǎo)師是 Antonio Torralba。此外,還曾在谷歌的機(jī)器感知團(tuán)隊(duì)擔(dān)任研究科學(xué)家,并在 Cruise 擔(dān)任訪問研究員。
具體來說,他的研究通過訓(xùn)練機(jī)器觀察和與環(huán)境互動(dòng),旨在創(chuàng)建穩(wěn)健且多功能的感知模型。實(shí)驗(yàn)室經(jīng)常研究如何利用大量未標(biāo)記數(shù)據(jù)進(jìn)行任務(wù)和模態(tài)遷移。其他研究方向包括場景動(dòng)態(tài)、聲音和語言、可解釋模型以及機(jī)器人感知等。
Thomas Huang 紀(jì)念獎(jiǎng)
該獎(jiǎng)項(xiàng)于 2020 年設(shè)立,以紀(jì)念 Thomas S. Huang,他是其時(shí)代計(jì)算機(jī)視覺、模式識別和人機(jī)交互領(lǐng)域的杰出人物。該獎(jiǎng)項(xiàng)旨在表彰和致敬在計(jì)算機(jī)視覺社區(qū)中長期服務(wù)、研究和指導(dǎo)的杰出個(gè)人。
2024 年獲獎(jiǎng)?wù)撸篈ndrea Vedaldi
Andrea Vedaldi 是牛津大學(xué)工程科學(xué)系計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)專業(yè)的教授,同時(shí)擔(dān)任 VGG 小組的聯(lián)合負(fù)責(zé)人。
他主要研究計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)方法,目標(biāo)是自動(dòng)理解圖像和視頻的內(nèi)容,并且?guī)缀醪恍枰斯けO(jiān)督,特別關(guān)注語義和 3D 幾何。
此前,他在帕多瓦大學(xué)獲得學(xué)士學(xué)位,并在加利福尼亞大學(xué)洛杉磯分校獲得碩士和博士學(xué)位。
參考資料:
https://cvpr.thecvf.com/Conferences/2024/News/Awards
https://x.com/skalskip92/status/1803181265581121752
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。