圖像生成模型終于學會了拼寫單詞,秘訣竟是字符特征?
過去的一年里,隨著 DALL-E 2,Stable Diffusion 等圖像生成模型的發(fā)布,text-to-image 模型生成的圖像在分辨率、質量、文本忠實度等方面都得到了飛躍性提升,極大促進了下游應用場景的開發(fā),人人都成了 AI 畫家。
但相關研究表明,目前的生成模型技術仍然存在一個重大缺陷:無法在圖像中呈現出可靠的視覺文本。
有研究結果表明,DALL-E 2 在圖片中生成連貫文本字符上非常不穩(wěn)定,而最新發(fā)布的 Stable Diffusion 模型則是直接將「無法呈現可讀的文本」列為已知的限制。
最近 Google Research 發(fā)布了一篇新論文,試圖了解并提高圖像生成模型渲染高質量視覺文本的能力。
研究人員認為當下的 text-to-image 生成模型模型存在文本渲染缺陷的主要原因是缺乏字符級的輸入特征。
為了量化該輸入特征在模型生成中的影響,文章中設計了一系列控制實驗對是否包含文本輸入特征的文本編碼器(character-aware 和 character-blind)進行對比。
研究人員發(fā)現,在純文本領域,character-aware 模型在一個新的拼寫任務(WikiSpell)上獲得了很大的性能收益。
將該經驗遷移到視覺領域后,研究人員訓練了一套圖像生成模型。實驗結果表明 character-aware 模型在一系列新的文本渲染任務(DrawText 基準)中比 character-blind 更勝一籌。
并且 character-aware 模型在視覺拼寫方面達到了更高的技術水平,盡管訓練的樣例數量少得多,其在不常見的單詞上的準確率仍然比競爭模型高出 30 多個百分點。
Character-Aware 模型
語言模型可分為直接訪問構成其文本輸入字符的 character-aware 模型和無法訪問的 character-blind 模型。
許多早期的神經語言模型直接在字符上進行操作,而不使用多字符的 token 作為標記。
后來的模型逐漸轉向基于詞匯表的 tokenization,其中一些模型如 ELMo 仍然保留了 character-aware,但其他模型如 BERT 則放棄了字符特征以支持更有效的預訓練。
目前,大多數廣泛使用的語言模型是 character-blind 的,依靠數據驅動的子詞(subword)分割算法,如字節(jié)對編碼(BPE)來生成子詞 pieces 作為詞匯表。
雖然這些方法對于不常見的序列可以退回到字符級表示,但它們在設計上仍然會將常見的字符序列壓縮成不可分割的單元。
這篇論文的主要目的是試圖了解并提高圖像生成模型渲染高質量視覺文本的能力。
為此,研究人員首先孤立地研究了當下文本編碼器的拼寫能力,從實驗結果可以發(fā)現,盡管 character-blind 文本編碼器很受歡迎,但它們沒有收到關于其輸入的字符級構成的直接信號,導致其拼寫能力有限。
研究人員還測試了不同規(guī)模、架構、輸入表示、語言和調整方法的文本編碼器的拼寫能力。
這篇論文首次記錄了 character-blind 模型通過網絡預訓練誘導出強大的拼寫知識(準確率 > 99%)的神奇能力,但實驗結果表明這項能力在英語之外的語言中并沒有得到很好的泛化,而且只有在超過 100B 參數的規(guī)模下才能實現,所以對于大多數應用場景是不可行的。
另一方面,character-aware 的文本編碼器能夠在更小的尺度上實現強大的拼寫能力。
在將這些發(fā)現應用于圖像生成場景時,研究人員訓練了一系列 character-aware 的文本到圖像的模型,并證明它們在現有的和新的文本渲染的評估中明顯優(yōu)于字符盲目的模型。
但對于純字符級模型來說,雖然文本渲染的性能提升了,但對于不涉及視覺文本的 prompt,圖像-文本對齊度則會下降。
為了緩解這一問題,研究人員建議將字符級和 token 級的輸入表征結合起來,從而可以實現最佳的性能。
WikiSpell 基準
由于文本到圖像的生成模型依賴于文本編碼器來產生用于解碼的表征,研究人員首先從 Wiktionary 中采樣一些單詞創(chuàng)建了 WikiSpell 基準,然后基于此數據集在一個純文本的拼寫評估任務來探索文本編碼器的能力。
對于 WikiSpell 中的每個樣例,模型的輸入是一個單詞,預期的輸出是它的具體拼寫(通過在每個 Unicode 字符之間插入空格來生成)。
由于該文章僅對研究一個詞的頻率和模型的拼寫能力之間的關系感興趣,所以研究人員根據單詞在 mC4 語料庫中出現的頻率,將 Wiktionary 中的詞分成五個互不重疊的桶:最頻繁的前 1% 的詞,最頻繁的 1-10% 的詞,10-20% 的詞,20-30% 的詞,以及最低的 50% 的詞(包括在語料庫中從未出現過的詞)。
然后從每個桶中均勻地抽取 1000 個詞來創(chuàng)建一個測試集(以及一個類似的開發(fā)集)。
最后通過結合兩部分建立了一個由 10,000 個詞組成的訓練集:5,000 個從最底層的 50% 桶(最不常見的詞)中統(tǒng)一取樣,另外 5,000 個根據它們在 mC4 中的頻率按比例取樣(從而使這一半的訓練集偏向頻繁的詞)。
研究人員將任何被選入開發(fā)集或測試集的詞排除在訓練集之外,因此評估結果總是針對被排除的詞。
除了英語外,研究人員還對其他六種語言(阿拉伯語、漢語、芬蘭語、韓語、俄語、泰語)進行評估,選擇這些語言是為了涵蓋影響模型學習拼寫能力的各種特性,對每一種語言的評估都重復上述數據集構建過程。
文本生成實驗
研究人員使用 WikiSpell 基準來評估多種預訓練的純文本模型在不同規(guī)模上的表現,包括 T5(一個在英語數據上預訓練的 character-blind 編碼解碼器模型);mT5(與 T5 類似,但在超過 100 種語言上預訓練);ByT5(mT5 的 character-aware 版本,直接在 UTF-8 字節(jié)序列上操作);以及 PaLM(一個規(guī)模更大的解碼模型,主要是在英語上預訓練的)。
在純英語和多語言的實驗結果中,可以發(fā)現 character-blind 模型 T5 和 mT5 在包含 Top-1% 最頻繁詞匯的桶上的表現要差很多。
這個結果似乎是反直覺的,因為模型通常在數據中頻繁出現的例子上表現最好,但是由于 subword 詞匯的訓練方式,頻繁出現的詞通常被表示為一個單一的原子標記(或少量的標記),事實上也是如此:在英語前 1% 的桶中,87% 的詞被 T5 的詞匯表示為一個子詞標記。
因此,較低的拼寫準確性分數表明,T5 的編碼器沒有保留足夠的關于其詞匯中 subword 的拼寫信息。
其次,對于 character-blind 模型,規(guī)模是影響拼寫能力的一個重要因素。T5 和 mT5 都隨著規(guī)模的增加而逐漸變好,但即使在 XXL 規(guī)模下,這些模型也沒有表現出特別強的拼寫能力。
只有當 character-blind 模型達到 PaLM 的規(guī)模時,才開始看到近乎完美的拼寫能力:540B 參數的 PaLM 模型在英語的所有頻率桶中都達到了 > 99% 的準確率,盡管它在提示中只看到 20 個例子(而 T5 顯示的是 1000 個微調例子)。
然而,PaLM 在其他語言上的表現較差,可能是由于這些語言的預訓練數據少得多。
對 ByT5 的實驗表明,character-aware 模型表現出更強大的拼寫能力。ByT5 在 Base 和 Large 尺寸下的表現僅略微落后于 XL 和 XXL(盡管仍然至少在 90% 的范圍內),而且一個詞的頻率似乎對 ByT5 的拼寫能力沒有太大影響。
ByT5 的拼寫性能遠遠超過了 (m) T5 的結果,甚至與參數多于 100 倍的 PaLM 的英語表現相當,并且超過了 PaLM 在其他語言上的表現。
從而可知 ByT5 編碼器保留了相當多的字符級信息,而且這些信息可以根據解碼任務的需要從這些凍結的參數中檢索出來。
DrawText 基準
從 2014 年發(fā)布的 COCO 數據集到 2022 年的 DrawBench 基準,從 FID, CLIP 得分到人類偏好等指標,如何評估 text-to-image 模型一直是一個重要的研究課題。
但目前在文本渲染和拼寫評估方面一直缺乏相關工作。
為此,研究人員提出了一個新的基準 DrawText,旨在全面衡量文本到圖像模型的文本渲染質量。
DrawText 基準由兩部分組成,分別測量模型能力的不同維度:
1)DrawText Spell,通過大量的英語單詞集合的普通單詞渲染進行評估;
研究人員從英語 WikiSpell 頻率桶中各抽取 100 個單詞,并將它們插入一個標準模板中,總共構建了 500 個提示。
對于每個 prompt,從候選模型中抽取 4 張圖片,并使用人類評分和基于光學字符識別(OCR)的指標對其進行評估。
2)DrawText Creative,通過視覺效果的文本渲染進行評估。
視覺文本并不局限于像街道標志那樣的常見場景,文字可以以多種形式出現,如潦草的、繪畫的、雕刻的、雕塑的,等等。
如果圖像生成模型支持靈活而準確的文本渲染,這將使設計師能夠使用這些模型來開發(fā)創(chuàng)造性的字體、標志、布局等等。
為了測試圖像生成模型支持這些用例的能力,研究人員與一位專業(yè)的圖形設計師合作,構建了 175 個不同的提示,要求在一系列創(chuàng)造性的風格和設置中渲染文本。
許多提示超出了當前模型的能力,最先進的模型會表現出拼寫錯誤、丟棄或重復的單詞。
圖像生成實驗
實驗結果顯示,用于對比的 9 個圖像生成模型中在 DrawText Spell 基準上的準確率中,character-aware 模型(ByT5 和 Concat)無論模型尺寸大小都優(yōu)于其他模型,特別是在不常見單詞上。
Imagen-AR 顯示了避免 cropping 的好處,盡管訓練時間長了 6.6 倍,其仍然比字 character-aware 模型表現差。
模型之間的另一個明顯的區(qū)別在于它們是否在多個樣本中持續(xù)地拼錯一個給定的單詞。
在實驗結果中可以看出,無論抽取多少個樣本,T5 模型都有很多單詞拼錯,研究人員認為這表明文本編碼器中缺少字符知識。
相比之下,ByT5 模型基本只會出現零星的錯誤。
通過測量模型在所有四個圖像樣本中持續(xù)正確(4/4)或持續(xù)錯誤(0/4)的比率可以量化這一觀察結果。
可以看到一個鮮明的對比,特別是在常見的詞上(前 1%),即 ByT5 模型從未持續(xù)錯誤,而 T5 模型在 10% 或更多的詞上持續(xù)錯誤。
參考資料:
https://arxiv.org/abs/2212.10562
本文來自微信公眾號:新智元 (ID:AI_era),編輯:LRS
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。