今天,Meta 發(fā)布史上首個圖像分割基礎(chǔ)模型 SAM,將 NLP 領(lǐng)域的 prompt 范式引進 CV,讓模型可以通過 prompt 一鍵摳圖。網(wǎng)友直呼:CV 不存在了!
就在剛剛,Meta AI 發(fā)布了 Segment Anything Model(SAM)—— 第一個圖像分割基礎(chǔ)模型。
SAM 能從照片或視頻中對任意對象實現(xiàn)一鍵分割,并且能夠零樣本遷移到其他任務(wù)。
整體而言,SAM 遵循了基礎(chǔ)模型的思路:
1. 一種非常簡單但可擴展的架構(gòu),可以處理多模態(tài)提示:文本、關(guān)鍵點、邊界框。
2. 直觀的標注流程,與模型設(shè)計緊密相連。
3. 一個數(shù)據(jù)飛輪,允許模型自舉到大量未標記的圖像。
而且,毫不夸張地說,SAM 已經(jīng)學會了「物體」的一般概念,甚至對于未知物體、不熟悉的場景(例如水下和顯微鏡下)以及模糊的案例也是如此。
此外,SAM 還能夠泛化到新任務(wù)和新領(lǐng)域,從業(yè)者并不需要自己微調(diào)模型了。
最強大的是,Meta 實現(xiàn)了一個完全不同的 CV 范式,你可以在一個統(tǒng)一框架 prompt encoder 內(nèi),指定一個點、一個邊界框、一句話,直接一鍵分割出物體。
對此,騰訊 AI 算法專家金天表示,「NLP 領(lǐng)域的 prompt 范式,已經(jīng)開始延展到 CV 領(lǐng)域了。而這一次,可能徹底改變 CV 傳統(tǒng)的預(yù)測思路。這一下你可以真的可以用一個模型,來分割任意物體,并且是動態(tài)的!」
英偉達 AI 科學家 Jim Fan 對此更是贊嘆道:我們已經(jīng)來到了計算機視覺領(lǐng)域的「GPT-3 時刻」!
所以,CV 真的不存在了?
SAM:一鍵「切出」任何圖像中的所有對象
Segment Anything 是致力于圖像分割的第一個基礎(chǔ)模型。
分割(Segmentation)是指識別哪些圖像像素屬于一個對象,一直是計算機視覺的核心任務(wù)。
但是,如果想為特定任務(wù)創(chuàng)建準確的分割模型,通常需要專家進行高度專業(yè)化的工作,這個過程需要訓練 AI 的基礎(chǔ)設(shè)施,和大量仔細標注的域內(nèi)數(shù)據(jù),因此門檻極高。
為了解決這個問題,Meta 提出了一個圖像分割的基礎(chǔ)模型 ——SAM。這個接受了多樣化數(shù)據(jù)訓練的可提示模型,不僅能適應(yīng)各種任務(wù),而且操作起來也類似于在 NLP 模型中使用提示的方式。
SAM 模型掌握了「什么是對象」這個概念,可以為任何圖像或視頻中的任何對象生成掩碼,即使是它在訓練中沒有見過的對象。
SAM 具有如此廣泛的通用性,足以涵蓋各種用例,不需要額外訓練,就可以開箱即用地用于新的圖像領(lǐng)域,無論是水下照片,還是細胞顯微鏡。也即是說,SAM 已經(jīng)具有了零樣本遷移的能力。
Meta 在博客中興奮地表示:可以預(yù)計,在未來,在任何需要在圖像中查找和分割對象的應(yīng)用中,都有 SAM 的用武之地。
SAM 可以成為更大的 AI 系統(tǒng)的一部分,對世界進行更通用的多模態(tài)理解,比如,理解網(wǎng)頁的視覺和文本內(nèi)容。
在 AR / VR 領(lǐng)域,SAM 可以根據(jù)用戶的視線選擇對象,然后把對象「提升」為 3D。
對于內(nèi)容創(chuàng)作者,SAM 可以提取圖像區(qū)域進行拼貼,或者視頻編輯。
SAM 還可以在視頻中定位、跟蹤動物或物體,有助于自然科學和天文學研究。
通用的分割方法
在以前,解決分割問題有兩種方法。
一種是交互式分割,可以分割任何類別的對象,但需要一個人通過迭代微調(diào)掩碼。
第二種是自動分割,可以分割提前定義的特定對象,但訓練過程需要大量的手動標注對象(比如要分割出貓,就需要成千上萬個例子)。
總之,這兩種方式都無法提供通用、全自動的分割方法。
而 SAM 可以看作這兩種方法的概括,它可以輕松地執(zhí)行交互式分割和自動分割。
在模型的可提示界面上,只要為模型設(shè)計正確的提示(點擊、框、文本等),就可以完成廣泛的分割任務(wù)。
另外,SAM 在包含超過 10 億個掩碼的多樣化、高質(zhì)量數(shù)據(jù)集上進行訓練,使得模型能夠泛化到新的對象和圖像,超出其在訓練期間觀察到的內(nèi)容。因此,從業(yè)者不再需要收集自己的細分數(shù)據(jù),為用例微調(diào)模型了。
這種能夠泛化到新任務(wù)和新領(lǐng)域的靈活性,在圖像分割領(lǐng)域尚屬首次。
(1) SAM 允許用戶通過單擊一下,或交互式單擊許多點,來分割對象,還可以使用邊界框提示模型。
(2) 在面對被分割對象的歧義時,SAM 可以輸出多個有效掩碼,這是解決現(xiàn)實世界中分割問題的必備能力。
(3) SAM 可以自動發(fā)現(xiàn)、屏蔽圖像中的所有對象。(4) 在預(yù)計算圖像嵌入后,SAM 可以實時為任何提示生成分割掩碼,允許用戶與模型進行實時交互。
工作原理
研究人員訓練的 SAM 可以針對任何提示返回有效的分割掩碼。提示可以是前景 / 背景點、粗略的框或掩碼、自由形式的文本,或者總體上任何指示圖像中需要分割的信息。
有效掩碼的要求僅僅意味著即使在提示模糊且可能指代多個對象的情況下(例如,襯衫上的一個點可能表示襯衫或者穿襯衫的人) ,輸出應(yīng)該是其中一個對象的合理掩碼。
研究人員觀察到,預(yù)訓練任務(wù)和交互式數(shù)據(jù)收集對模型設(shè)計施加了特定的約束。
特別是,該模型需要在網(wǎng)絡(luò)瀏覽器中 CPU 上實時運行,以便讓標準人員能夠高效實時與 SAM 互動進行標注。
雖然運行時間的約束,意味著質(zhì)量與運行時間之間需要權(quán)衡,但研究人員發(fā)現(xiàn),在實踐中,簡單的設(shè)計可以取得良好的效果。
SAM 的圖像編碼器為圖像產(chǎn)生一次性嵌入,而輕量級解碼器將任何提示實時轉(zhuǎn)換為矢量嵌入。然后將這兩個信息源在一個預(yù)測分割掩碼的輕量級解碼器中結(jié)合起來。
在計算出圖像嵌入之后,SAM 可以在短短 50 毫秒內(nèi)生成一段圖像,并在網(wǎng)絡(luò)瀏覽器中給出任何提示。
最新 SAM 模型在 256 張 A100 上訓練了 68 小時(近 5 天)完成。
項目演示
多種輸入提示
在圖像中指定要分割的內(nèi)容的提示,可以實現(xiàn)各種分割任務(wù),而無需額外的訓練。
可提示的設(shè)計
SAM 可以接受來自其他系統(tǒng)的輸入提示。
例如,根據(jù) AR / VR 頭顯傳來的用戶視覺焦點信息,來選擇對應(yīng)的物體。Meta 通過發(fā)展可以理解現(xiàn)實世界的 AI,恰恰為它未來元宇宙之路鋪平道路。
或者,利用來自物體檢測器的邊界框提示,實現(xiàn)文本到物體的分割。
可擴展的輸出
輸出掩碼可以作為其他 AI 系統(tǒng)的輸入。
例如,物體的 mask 可以在視頻中被跟蹤,通過成像編輯應(yīng)用程序,變成 3D,或用于拼貼等創(chuàng)造性任務(wù)。
零樣本的泛化
SAM 學會了關(guān)于物體是什么的一般概念 —— 這種理解使其能夠?qū)Σ皇煜さ奈矬w和圖像進行零樣本概括,而不需要額外訓練。
各種評測
選擇 Hover&Click,點 Add Mask 后就出現(xiàn)綠點,點 Remove Area 后出現(xiàn)紅點,吃蘋果的花花立刻就被圈出來了。
而在 Box 功能中,簡單框選一下,就立馬完成識別。
點 Everything 后,所有系統(tǒng)識別出的對象立刻全部被提取出來。
選 Cut-Outs 后,秒得一個三角團子。
SA-1B 數(shù)據(jù)集:1100 萬張圖像,11 億個掩碼
除了發(fā)布的新模型,Meta 還發(fā)布了迄今為止最大的分割數(shù)據(jù)集 SA-1B。
這個數(shù)據(jù)集由 1100 萬張多樣化、高分辨率、保護隱私的圖像,以及 11 億個高質(zhì)量分割掩碼組成。
數(shù)據(jù)集的整體特性如下:
?圖像總數(shù): 1100 萬
?掩碼總數(shù): 11 億
?每張圖像的平均掩碼: 100
?平均圖像分辨率: 1500 × 2250 pixels
注意:圖像或掩碼標注沒有類標簽
Meta 特別強調(diào),這些數(shù)據(jù)是通過我們的數(shù)據(jù)引擎收集的,所有掩碼均由 SAM 完全自動生成。
有了 SAM 模型,收集新的分割掩碼的速度比以往任何時候都快,交互式標注一個掩碼只需要大約 14 秒。
每個掩碼標注過程只比標注邊界框慢 2 倍,使用最快的標注界面,標注邊界框大約需要 7 秒。
與以前的大規(guī)模分割數(shù)據(jù)收集工作相比,SAM 模型 COCO 完全手動的基于多邊形的掩碼標注快 6.5 倍,比以前最大的數(shù)據(jù)標注工作(也是模型輔助)快 2 倍。
然而,依賴于交互式標注掩碼并不足以創(chuàng)建 10 億多個掩碼數(shù)據(jù)集。因此,Meta 構(gòu)建了一個用于創(chuàng)建 SA-1B 數(shù)據(jù)集的數(shù)據(jù)引擎。
這個數(shù)據(jù)引擎有三個「齒輪」:
1. 模型輔助標注
2. 全自動標注與輔助標注的混合,有助于增加收集到的掩碼的多樣性
3. 全自動掩碼創(chuàng)建,使數(shù)據(jù)集能夠擴展
我們的最終數(shù)據(jù)集包括超過 11 億個分割掩碼,這些掩碼收集在大約 1100 萬張授權(quán)和保護隱私的圖像上。
SA-1B 比任何現(xiàn)有的分割數(shù)據(jù)集多出 400 倍的掩碼。并且通過人類評估研究證實,掩碼具有高質(zhì)量和多樣性,在某些情況下,甚至在質(zhì)量上可與之前規(guī)模更小、完全手動標注數(shù)據(jù)集的掩碼相媲美。
SA-1B 的圖片是通過來自多個國家 / 地區(qū)的照片提供商獲取的,這些國家 / 地區(qū)跨越不同的地理區(qū)域和收入水平。
雖然某些地理區(qū)域仍然代表性不足,但 SA-1B 比以前的分割數(shù)據(jù)集在所有地區(qū)都有更多的圖像和更好的整體代表性。
最后,Meta 稱希望這些數(shù)據(jù)可以成為新數(shù)據(jù)集的基礎(chǔ),這些數(shù)據(jù)集包含額外的標注,例如與每個掩模相關(guān)聯(lián)的文本描述。
RBG 大神帶隊
Ross Girshick
Ross Girshick(常被稱為 RBG 大神)是 Facebook 人工智能研究院(FAIR)的一名研究科學家,他致力于計算機視覺和機器學習的研究。
2012 年,Ross Girshick 在 Pedro Felzenszwalb 的指導下獲得了芝加哥大學的計算機科學博士學位。
在加入 FAIR 之前,Ross 是微軟研究院的研究員,也是加州大學伯克利分校的博士后,在那里他的導師是 Jitendra Malik 和 Trevor Darrell。
他獲得了 2017 年的 PAMI 青年研究員獎,2017 年和 2021 年的 PAMI Mark Everingham 獎,以表彰他對開源軟件的貢獻。
眾所周知,Ross 和何愷明大神一起開發(fā)了 R-CNN 方法的目標檢測算法。2017 年,Ross 和何愷明大神的 Mask R-CNN 論文獲得了 ICCV 2017 最佳論文。
網(wǎng)友:CV 真不存在了
Meta 打造的這款 CV 領(lǐng)域的分割基礎(chǔ)模型,讓許多網(wǎng)友高呼「這下,CV 是真不存在了。」
Meta 科學家 Justin Johnson 表示:「對我來說,Segment Anything 的數(shù)據(jù)引擎和 ChatGPT 的 RLHF 代表了大規(guī)模人工智能的新時代。與其從嘈雜的網(wǎng)絡(luò)數(shù)據(jù)中學習一切,不如巧妙地應(yīng)用人類標注與大數(shù)據(jù)相結(jié)合,以釋放新的能力。監(jiān)督學習強勢回歸!」
唯一遺憾的是,SAM 模型發(fā)布主要是由 Ross Girshick 帶隊,何愷明卻缺席了。
知友「matrix 明仔」表示,這篇文章進一步證明多模態(tài)才是 CV 的未來,純 CV 是沒有明天的。
參考資料:
https://ai.facebook.com/blog/segment-anything-foundation-model-image-segmentation/
https://www.zhihu.com/question/593914819
本文來自微信公眾號:新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。