設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

計算機視覺頂會 ECCV 2024 揭榜:錄用率或創(chuàng)新低,2395 篇論文中選

新智元 2024/7/2 13:30:42 責編:汪淼

ECCV 2024 錄用結(jié)果終于公布了!

一大早,ECC 組委會放出了所有被接受論文的 ID 名單,共錄用了 2395 篇論文。

有網(wǎng)友估算了下,今年論文總提交量大約有 12600 篇,錄用率是 18%。簡直不敢相信今年 ECCV 的錄用率如此之低,CVPR 2024 錄用率還是 23.6%。

據(jù)統(tǒng)計,ECCV 2022 共有 5803 篇論文投稿,接收率為 28%。

再往前倒推,2020 年 ECCV 共收到有效投稿 5025 篇,接收論文 1361 篇,接收率為 27%。2018 年共有 2439 篇投稿,接收 776 篇,錄用率為 31.8%。

ECCV 表示,在接下來的幾天里,還將公布最終的評審意見和元評審意見。還有論文 Poster / Oral 結(jié)果也將在隨后揭曉。

今年,是 ECCV 召開的第 18 屆頂會,將于 9 月 29 日-10 月 4 日在意大利米蘭正式開幕。

ECCV(歐洲計算機視覺國際會議)創(chuàng)辦于 1887 年,每兩年舉辦一次。它與 CVPR(每年一屆)ICCV(每兩年一屆)并稱計算機視覺方向的三大頂級會議。

收到錄用結(jié)果的小伙伴們,已經(jīng)開始分享自己的成果了。

網(wǎng)友曬出成績單

一位小伙伴 Jeff Li 同一天雙喜臨門,不僅收到了入職英偉達的 offer,同時 2 篇論文被 ECCV 接收。

斯坦福計算機博士生,清華校友 Congyue Deng 實現(xiàn)了在噪聲和特征不準確的情況下,獲得更好的圖像對應關系。

為此,作者提出了 Laplacian 特征函數(shù),可以將圖像對應問題性像素空間提升到函數(shù)空間,并直接優(yōu)化全局一致的映射。

實驗結(jié)果證明,新技術不僅能產(chǎn)生更平滑,而且更準確的對應關系,還能更好地反映作者所研究的大規(guī)模視覺模型中嵌入的知識。

論文地址:https://arxiv.org/abs/2403.12038

佐治亞理工學院 Bolin Lai 博士聯(lián)手 Meta、UIUC 團隊發(fā)表論文,提出了以自我為中心的動作框架 ——LEGO,由多模態(tài)模型和擴散模型組成,通過指令微調(diào)豐富動作提示。

最新框架的設計目標是,通過輸入用戶提示和以自我視角為中心的圖像,基于用戶的「上下文」(即動作幀)描述動作。然后用戶再去學習,如何去無縫完成自己的工作。

論文中提出新模型能夠按照指令生成一致的動作,并在動作過程中發(fā)生視點變化時,依舊保持一致性。此外,LEGO 模型還可以在相同的上下文中,推廣到各種看不見的動作。

論文地址:https://arxiv.org/pdf/2312.03849

高斯?jié)姙R

來自 UT Austin 的博士生 Zhiwen Fan,有 3 篇論文都被 ECCV 2024 接收了。

這幾篇論文探索了許多新的領域:從稀疏視圖進行 3D 重建、高質(zhì)量 3D 多任務學習,以及使用全景格式的大規(guī)模 3D 生成。

在 DreamScene360 中,作者提出了一種 3D 全景的場景級別生成流程,該流程利用 GPT-4V 結(jié)合 2D 擴散模型和全景高斯?jié)姙R技術,從任何具體程度的文本提示中生成具有完整 360 度覆蓋的沉浸式高質(zhì)量場景,實現(xiàn)了卓越的 3D 場景生成質(zhì)量和實時的渲染速度。

項目地址:https://dreamscene360.github.io/

在 FSGS 中,作者提出了一種基于 3D 高斯?jié)姙R的稀疏視角合成框架,該框架能夠在僅有三張訓練視圖的情況下實現(xiàn)實時和高質(zhì)量的視角合成。

作者通過精心設計的高斯 Unpooling 過程來處理稀疏的 COLMAP 點云,并在最具代表性的位置周圍迭代分布新的高斯,隨后在空白區(qū)域填充局部細節(jié)。

此外,作者還在高斯優(yōu)化過程中集成了一個大規(guī)模預訓練的單目深度估計器,利用在線增強視圖引導幾何優(yōu)化走向最佳解決方案。

從有限輸入視點觀察到的稀疏點開始,F(xiàn)SGS 可以準確地擴展到未見過的區(qū)域,全面覆蓋場景并提升新視角的渲染質(zhì)量。

總體而言,F(xiàn)SGS 在包括 LLFF、Mip-NeRF360 和 Blender 在內(nèi)的各種數(shù)據(jù)集上,在圖像質(zhì)量達到了 SOTA 的性能,渲染速度比基于 NeRF 的方法快 2,000 倍以上。

項目地址:https://zehaozhu.github.io/FSGS/

在 VersatileGaussian 中,作者提出將 Multi-task Learning 引入 Gaussian Splatting,來提升全任務的重建質(zhì)量,尤其是 RGB 圖像渲染質(zhì)量得到明顯提升。

本文提出特征圖 Rasterizer,以及任務間的相關注意模塊,能通過一種軟加權機制傳播任務特定知識,促進跨任務相關性學習,從而取得明顯優(yōu)越的性能。

在 ScanNet 和 Replica 數(shù)據(jù)集上的實驗表明 VersatileGaussian 取得了明顯優(yōu)越的渲染質(zhì)量和速度。

項目地址:https://shadowiterator.github.io/VersatileGaussian-Homepage/

圖像編輯

UCSC 的助理教授 Xin Eric Wang 則帶領團隊提出了一種圖像個性化編輯 SwapAnything 框架。

基于此,你便可以看到肌肉發(fā)達的 LeCun 大牛拍著小貓咪;烏龜?shù)凝敋?,也可以是美國隊長盔甲的印記。

正如作者所述,SwapAnything 可在個性化可視化編輯中實現(xiàn)任意對象「交換」,包括單對象、部分對象、多對象、跨域、基于文本的「交換」等。

它有三個獨特的優(yōu)勢:精準控制任意對象和部件,而不是主體;原封不動地保存上下文像素;個性化概念與形象的無縫改編。

論文地址:https://arxiv.org/pdf/2404.05717

ChatGPT 中的 DALL?E 卻無法利用參考概念,進行個性化視覺編輯。

在它支持的基于文本的編輯任務上,SwapAnything 也能實現(xiàn)更穩(wěn)健的性能。

圖像合并

谷歌研究科學家、DreamBooth 作者 Nataniel Ruiz 和團隊提出的 ZipLoRA 算法,正式被錄用。

在 AI 社區(qū)中,合并 LoRA 一直是一個熱門話題,但調(diào)優(yōu)過程可能非常繁瑣。

谷歌和 UIUC 提出的 ZipLoRA 算法,可以讓開發(fā)者輕松地將任何主體 LoRA 與任何風格 LoRA 結(jié)合起來。

這一方法的核心思想很簡單:通過反向傳播找到一個合并點,在這一點上兩個 LoRA 都能很好地發(fā)揮作用,同時還能限制它們之間的信號干擾。

如下圖所示,ZipLoRA 保留了令人印象深刻的細節(jié)主題,非常逼真地再現(xiàn)了用戶給出的風格。

論文地址:https://arxiv.org/pdf/2311.13600

與社區(qū)其他類似方法相較之下,比如 direct arithmetic merge、StyleDrop+DreamBooth 等,ZipLoRA 更好地實現(xiàn)了主題保真度,以及風格指令遵循。

圖像生成

英偉達高級研究科學家 Ali Hatamizadeh 剛剛宣布,團隊提出的圖像生成 ViT 算法 DiffiT 被 ECCV 2024 接收。

在這篇論文中,作者提出了擴散視覺 Transformer(DiffiT)用于圖像生成。

具體來說,它們提出了一種對去噪過程進行精細控制的方法,并引入了時間依賴多頭自注意力(TMSA)機制。

DiffiT 在生成高保真度圖像方面顯示出驚人的效果,同時有著更好的參數(shù)效率。

論文地址:https://arxiv.org/pdf/2312.02139

字體文本生成

微軟高級研究科學家 Yuhui Yuan 發(fā)文稱,F(xiàn)ontStudio 模型已被 ECCV 2024 錄用。

正如模型名字所示,這是用于生成連貫一致字體效果的形狀自適應擴散模型。

為了訓出這個模型,研究人員精心策劃了一個高質(zhì)量形狀自適應圖像-文本數(shù)據(jù)集,并將分割掩碼作為視覺輸入條件,以引導不規(guī)則畫布內(nèi)圖像生成的功能。

其次,為了保持多個字母之間的一致性,他們還提出了一種免訓練的形狀自適應效果轉(zhuǎn)移方法,用于將紋理從生成的參考字母轉(zhuǎn)移到其他字母。

實驗結(jié)果顯示,與無可匹敵的 Adobe Firefly 相比,用戶在微軟提出的 FontStudio 上的偏好更明顯。

論文地址:https://arxiv.org/pdf/2406.08392

另外一篇微軟聯(lián)手清華北大、澳大利亞國立大學提出的文本編碼器 Glyph-ByT5 也被錄用。

為了實現(xiàn)準確的文本渲染,研究人員確定了對文本編碼器的兩個關鍵要求:字符識別和與字形對齊。

他們提出了一種將 Glyph-ByT5 與 SDXL 有效集成的方法,從而創(chuàng)建了用于設計圖像生成的 Glyph-SDXL 模型。

這顯著提高了文本渲染的準確性,在作者設計的圖像基準測試中,模型準確率從不到 20% 提升到了近 90%。

值得注意的是,Glyph-SDXL 新獲得了文本段落渲染的能力,可以為數(shù)十到數(shù)百個字符實現(xiàn)高拼寫準確率,并且具有自動多行布局功能。

論文地址:https://arxiv.org/abs/2403.09622

你的論文被錄用了嗎?

最后借用網(wǎng)友一句勉勵的話,「不論你的論文是否被 ECCV 錄用,請記住你的價值和研究意義不僅僅局限于一個會議。每一次被拒都是走向成長的一步。繼續(xù)前進,相信你的工作」!

本文來自微信公眾號:新智元(ID:AI_era),原標題《ECCV 2024 揭榜,錄用率或創(chuàng)新低!2395 篇論文中選,網(wǎng)友曬出成績單》

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:論文計算機視覺,ECCV

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知