IT之家 7 月 16 日消息,Meta 公司宣布開發(fā)出一款名為 CM3Leon 的人工智能模型,該模型可以根據文本生成高質量的圖像,也可以為圖像生成文本描述,甚至可以根據文本指令編輯圖像。
Meta 公司稱,這款模型在文本到圖像生成方面達到了業(yè)界最高水平,超過了谷歌、微軟等公司的產品。CM3Leon 是一種基于 Transformer 的模型,Transformer 是一種利用注意力機制來處理輸入數(shù)據的神經網絡結構。相比于其他基于擴散(diffusion)的模型,Transformer 模型更加高效,訓練速度更快,計算成本更低。
Meta 公司展示了 CM3Leon 在不同任務上的優(yōu)異表現(xiàn),包括根據復雜的文本提示生成圖像,根據文本指令編輯圖像,以及生成圖像描述和回答。Meta 公司表示,CM3Leon 是圖像生成和理解領域的一大進步,但也承認該模型可能存在數(shù)據偏見的問題,并呼吁行業(yè)加強透明度和監(jiān)管。
Meta 公司使用了數(shù)百萬張來自 Shutterstock 的授權圖片來訓練 CM3Leon,最強大的版本有 70 億個參數(shù),比 OpenAI 的 DALL-E 2 模型多兩倍。
Meta 公司沒有透露是否會公開發(fā)布 CM3Leon 模型。
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。