設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

DALL-E 2 語文水平被吐槽:金子和魚畫成真金?魚,遇到一詞多義就拉胯,失誤率超 80%

量子位 2022/10/23 19:29:38 責(zé)編:遠(yuǎn)生

以畫畫水平高超而風(fēng)靡全球的 DALL-E 2,語文水平被質(zhì)疑了。

比如 bat 這個(gè)多義詞,就把它給考住了。

a bat is flying over a baseball stadium(一只蝙蝠 / 球棍從棒球場(chǎng)上飛過)。

結(jié)果它畫出來的圖,蝙蝠和球拍都在天上飛。

而且這不是偶然的失誤,如果輸入“a person is hearing a bat”,畫出來的還是蝙蝠和球棒都存在。

換成另一種情況,輸入 a fish and a gold ingot(一條魚和一個(gè)金錠)。

好嘛,直接把兩種東西都鑄金了,變成真金?魚。

可不能低估了這些失誤,因?yàn)樗鼈円馕吨?DALL-E 2 在根據(jù)文本生成圖像的過程中,對(duì)語言中符號(hào)到實(shí)體的基本映射關(guān)系。

即一個(gè)詞對(duì)應(yīng)一個(gè)實(shí)體。

以 bat 舉例,畫出蝙蝠或者球棍,都算 DALL-E 2 理解正確,但是如果兩個(gè)都給,那就有問題了。

這就好比本身是單選題,填 A 或 B 都對(duì),可是把兩個(gè)都寫上就違反了規(guī)則。

更何況有時(shí)候它還把不同物體的修飾詞弄錯(cuò),“上一道題的解法用在下一道上”。

發(fā)現(xiàn)這一問題的,是來自巴伊蘭大學(xué)、艾倫人工研究智能所的學(xué)者們,并且專門寫了篇論文分析。

有趣的是,研究人員約阿夫?高柏(Yoav Goldberg)還提到,這種情況在 mini DALL-E 和 Stable Diffusion 中并不常見。

我猜這可能是因?yàn)樗^的逆規(guī)?,F(xiàn)象(inverse scaling)。

簡單理解就是“模型越大性能越差”。

論文具體說了啥?

幾位學(xué)者在發(fā)現(xiàn)問題后,又反復(fù)進(jìn)行了多次試驗(yàn),并把問題主要?jiǎng)澐譃槿N情況:

第一、一個(gè)單詞被解釋為兩個(gè)不同的事物

第二、一個(gè)單詞被解釋為兩個(gè)不同事物的修飾詞

第三、一個(gè)單詞在被解釋為一個(gè)事物的同時(shí),又被理解成另一種事物的修飾詞

前兩種情況開頭已經(jīng)提過。

第三種情況舉例來說,輸入“一匹斑馬和一條街道”,輸出的結(jié)果中一直都有斑馬線。

在這里,DALL-E 2 把斑馬同時(shí)解釋了兩次。

在針對(duì)這些情況都重復(fù)試驗(yàn)后,作者計(jì)算出 DALL-E 2 在三種情況下,出現(xiàn)失誤的概率都超過 80%。

其中第二種情況的失誤率最高,達(dá)到 97.2%。

第三種情況下,如果給另一個(gè)名詞前加上新的修飾詞,可以避免失誤發(fā)生。

即輸入一匹斑馬和一條碎石路,路面上就沒有斑馬線出現(xiàn)了。

而在用 DALL-E mini 和 Stable Diffusion 時(shí),這些重復(fù)解釋的情況并不常見。

作者解釋,未來可以考慮研究模型的文本編解碼器來追溯這些問題,并且可以研究這些問題和模型大小、框架是否有關(guān)系。

作者之一 Yoav Goldberg 是巴伊蘭大學(xué)的杰出教授,也是艾倫人工智能研究院以色列分院的研究主任。

之前,他在紐約的谷歌研究中心做博士后。研究興趣方向?yàn)?NLP 和機(jī)器學(xué)習(xí),尤其對(duì)語法解析感興趣。

還曾發(fā)現(xiàn) DALL-E 2 自創(chuàng)語言

不過就在幾個(gè)月之前,一位計(jì)算機(jī)專業(yè)的博士小哥發(fā)現(xiàn),給 DALL-E 2 喂一些奇怪的語言,它也能生成同一類的圖像。

而這些詞,正是來自 DALL-E 2 生成圖像中的。

比如輸入“兩個(gè)農(nóng)民談?wù)撌卟?,帶字幕(Two farmers talking about vegetables, with subtitles)”后,DALL-E 2 給出的圖像中,出現(xiàn)了一些“亂碼”的詞匯。

而如果再把圖像中的新詞 Vicootes”當(dāng)作描述丟給模型,沒想到,出來這樣一堆圖像:

有蘿卜、有南瓜、有小柿子…… 難道“Vicootes”就代表蔬菜?

如果再把上圖氣泡中一串“Apoploe vesrreaitais”扔給 DALL-E 2,一堆鳥圖出現(xiàn)了:

“難道說,這個(gè)單詞代表‘鳥’,所以農(nóng)民們似乎在談?wù)撚绊懰麄兪卟说镍B類?”

當(dāng)時(shí),這位博士小哥把自己的發(fā)現(xiàn)發(fā)布在網(wǎng)絡(luò)上后,立刻引起熱議。

有人試圖分析 DALL-E 2 是如何加密語言的,還有人覺得這只是噪聲。

不過總的來說,在語言理解方面,DALL-E 2 總能搞出點(diǎn)讓人意想不到的事。

你覺得這背后原因到底是什么呢?

論文地址:

  • https://arxiv.org/pdf/2210.10606.pdf

參考鏈接:

  • https://twitter.com/yoavgo/status/1583088957226881025

本文來自微信公眾號(hào):量子位 (ID:QbitAI),作者:明敏

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:DALLE 2,AI

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知