設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

Meta 研發(fā)新方法:整合語言和擴(kuò)散 AI 模型,降低計算量、提高運(yùn)算效率、優(yōu)化生成圖像

2024/8/24 6:57:06 來源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 8 月 24 日消息,Meta AI 公司最新推出了 Transfusion 新方法,可以結(jié)合語言模型和圖像生成模型,將其整合到統(tǒng)一的 AI 系統(tǒng)中。

IT之家援引團(tuán)隊介紹,Transfusion 結(jié)合了語言模型在處理文本等離散數(shù)據(jù)方面的優(yōu)勢,以及擴(kuò)散模型在生成圖像等連續(xù)數(shù)據(jù)方面的能力。

Meta 解釋說,目前的圖像生成系統(tǒng)通常使用預(yù)先訓(xùn)練好的文本編碼器來處理輸入的提示詞,然后將其與單獨(dú)的擴(kuò)散模型結(jié)合起來生成圖像。

許多多模態(tài)語言模型的工作原理與此類似,它們將預(yù)先訓(xùn)練好的文本模型與用于其他模態(tài)的專用編碼器連接起來。

不過 Transfusion 采用單一、統(tǒng)一的 Transformer 架構(gòu),適用于所有模式,對文本和圖像數(shù)據(jù)進(jìn)行端到端訓(xùn)練。文本和圖像使用不同的損失函數(shù):文本使用下一個標(biāo)記預(yù)測,圖像使用擴(kuò)散。

為了同時處理文本和圖像,圖像被轉(zhuǎn)換成圖像片段序列。這樣,模型就能在一個序列中同時處理文本標(biāo)記和圖像片段,特殊的注意力掩碼(attention mask)還能讓模型捕捉圖像內(nèi)部的關(guān)系。

有別于 Meta 現(xiàn)有的 Chameleon(將圖像轉(zhuǎn)換成離散的標(biāo)記,然后用處理文本的方式處理)等方法,Transfusion 保留了圖像的連續(xù)表示法,避免了量化造成的信息損失。

實(shí)驗還表明,與同類方法相比,"融合" 的擴(kuò)展效率更高。在圖像生成方面,它取得了與專門模型相似的結(jié)果,但計算量卻大大減少,令人驚訝的是,整合圖像數(shù)據(jù)還提高了文本處理能力。

研究人員在 2 萬億個文本和圖像標(biāo)記上訓(xùn)練了一個 70 億參數(shù)的模型。該模型在圖像生成方面取得了與 DALL-E 2 等成熟系統(tǒng)相似的結(jié)果,同時還能處理文本。

IT之家附上參考地址

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:Meta,AI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知