設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

30 頁(yè)論文,俞士綸團(tuán)隊(duì)新作:AIGC 全面調(diào)查,從 GAN 到 ChatGPT 發(fā)展史

新智元 2023/3/31 20:16:02 責(zé)編:夢(mèng)澤

2022 年,可以說(shuō)是生成式 AI 的元年。近日,俞士綸團(tuán)隊(duì)發(fā)表了一篇關(guān)于 AIGC 全面調(diào)查,介紹了從 GAN 到 ChatGPT 的發(fā)展史。

剛剛過(guò)去的 2022 年,無(wú)疑是生成式 AI 爆發(fā)的奇點(diǎn)。

自 2021 年起,生成式 AI 連續(xù) 2 年入選 Gartner 的「人工智能技術(shù)成熟度曲線」,被認(rèn)為是未來(lái)重要的 AI 技術(shù)趨勢(shì)。

近日,俞士綸團(tuán)隊(duì)發(fā)表了一篇關(guān)于 AIGC 全面調(diào)查,介紹了從 GAN 到 ChatGPT 的發(fā)展史。

論文地址:https://arxiv.org/ pdf / 2303.04226.pdf

本文節(jié)選了論文部分內(nèi)容進(jìn)行介紹。

奇點(diǎn)已來(lái)?

近年來(lái),人工智能生成內(nèi)容(AIGC,也稱生成式 AI)引發(fā)了計(jì)算機(jī)科學(xué)界以外的廣泛關(guān)注。

整個(gè)社會(huì)開(kāi)始對(duì)大型科技公司開(kāi)發(fā)的各種內(nèi)容生成的產(chǎn)品,如 ChatGPT 和 DALL-E-2,產(chǎn)生了極大興趣。

AIGC,是指使用生成式人工智能(GAI)技術(shù)生成內(nèi)容,并可以在短時(shí)間內(nèi)自動(dòng)創(chuàng)建大量?jī)?nèi)容。

ChatGPT 是 OpenAI 開(kāi)發(fā)的一個(gè)用于構(gòu)建會(huì)話的 AI 系統(tǒng)。該系統(tǒng)能夠以一種有意義的方式有效地理解人類語(yǔ)言并作出回應(yīng)。

此外,DALL-E-2 也是 OpenAI 開(kāi)發(fā)的另一種最先進(jìn)的 GAI 模型,能夠在幾分鐘內(nèi)從文本描述中創(chuàng)建獨(dú)特的高質(zhì)量圖像。

AIGC 在圖像生成中的示例

從技術(shù)上講,AIGC 是指給定指令,可以引導(dǎo)模型完成任務(wù),利用 GAI 生成滿足指令的內(nèi)容。這個(gè)生成過(guò)程通常包括兩個(gè)步驟:從指令中提取意圖信息,并根據(jù)提取的意圖生成內(nèi)容。

然而,正如以前的研究所證明的那樣,包含上述兩個(gè)步驟的 GAI 模型的范式并非是完全新穎的。

與此前工作相比,最近 AIGC 進(jìn)步的核心點(diǎn)是在更大的數(shù)據(jù)集上訓(xùn)練更復(fù)雜的生成模型,使用更大的基礎(chǔ)模型框架,并且可以訪問(wèn)廣泛的計(jì)算資源。

比如,GPT-3 和 GPT-2 的主框架一樣,但是預(yù)訓(xùn)練數(shù)據(jù)大小從 WebText (38GB) 增加到 CommonCrawl (過(guò)濾后為 570GB) ,基礎(chǔ)模型大小從 1.5B 增加到 175B。

因此,GPT-3 在各種任務(wù)上比 GPT-2 有更好的泛化能力。

除了數(shù)據(jù)量和計(jì)算能力增加所帶來(lái)的好處之外,研究人員還在探索將新技術(shù)與 GAI 算法結(jié)合起來(lái)的方法。

比如,ChatGPT 利用人類反饋的強(qiáng)化學(xué)習(xí) (RLHF) 來(lái)確定給定指令的最適當(dāng)響應(yīng),從而隨著時(shí)間的推移提高模型的可靠性和準(zhǔn)確性。這種方法使 ChatGPT 能夠更好地理解長(zhǎng)時(shí)間對(duì)話中的人類偏好。

同時(shí),在 CV 中,Stability AI 在 2022 年提出的 Stable Diffusion 在圖像生成方面也取得了巨大的成功。

與以往的方法不同,生成擴(kuò)散模型可以通過(guò)控制探索和開(kāi)發(fā)之間的平衡來(lái)幫助生成高分辨率圖像,從而在生成的圖像中實(shí)現(xiàn)多樣性,與訓(xùn)練數(shù)據(jù)相似性的和諧組合。

通過(guò)將這些進(jìn)步結(jié)合起來(lái),模型在 AIGC 的任務(wù)中取得了重大進(jìn)展,并已被藝術(shù)、廣告和教育等各行各業(yè)采用。

在不久的將來(lái),AIGC 將繼續(xù)成為機(jī)器學(xué)習(xí)研究的重要領(lǐng)域。

一般來(lái)說(shuō),GAI 模型可以分為兩種類型: 單模態(tài)模型和多模態(tài)模型

因此,對(duì)過(guò)去的研究進(jìn)行一次全面的回顧,并找出這個(gè)領(lǐng)域存在的問(wèn)題是至關(guān)重要的。這是首份關(guān)注 AIGC 領(lǐng)域的核心技術(shù)和應(yīng)用的調(diào)查。

這是 AIGC 第一次在技術(shù)和應(yīng)用方面總結(jié) GAI 的全面調(diào)查。

以前的調(diào)查主要從 GAI 不同角度介紹,包括自然語(yǔ)言生成 ,圖像生成,多模態(tài)機(jī)器學(xué)習(xí)生成。然而,這些先前的工作只關(guān)注 AIGC 的特定部分。

在這次調(diào)查中,最先回顧了 AIGC 常用的基礎(chǔ)技術(shù)。然后,進(jìn)一步提供了先進(jìn) GAI 算法的全面總結(jié),包括單峰生成和多峰生成。此外,論文還研究了 AIGC 的應(yīng)用和潛在挑戰(zhàn)。

最后強(qiáng)調(diào)了這個(gè)領(lǐng)域未來(lái)方向??傊?,本文的主要貢獻(xiàn)如下:

-據(jù)我們所知,我們是第一個(gè)為 AIGC 和 AI 增強(qiáng)的生成過(guò)程提供正式定義和全面調(diào)查。

-我們回顧了 AIGC 的歷史、基礎(chǔ)技術(shù),并從單峰生成和多峰生成的角度對(duì) GAI 任務(wù)和模型的最新進(jìn)展進(jìn)行了綜合分析。

-本文討論了 AIGC 面臨的主要挑戰(zhàn)和未來(lái)的研究趨勢(shì)。

生成式 AI 歷史

生成模型在人工智能中有著悠久的歷史,最早可以追溯到 20 世紀(jì) 50 年代隱馬爾可夫模型 (HMMs) 和高斯混合模型(GMMs)的發(fā)展。

這些模型生成了連續(xù)的數(shù)據(jù),如語(yǔ)音和時(shí)間序列。然而,直到深度學(xué)習(xí)的出現(xiàn),生成模型的性能才有了顯著的提高。

在早期的深度生成模型中,不同的領(lǐng)域通常沒(méi)有太多的重疊。

生成 AI 在 CV、NLP 和 VL 中的發(fā)展史

在 NLP 中,生成句子的傳統(tǒng)方法是使用 N-gram 語(yǔ)言模型學(xué)習(xí)詞的分布,然后搜索最佳序列。然而,這種方法不能有效適應(yīng)長(zhǎng)句子。

為了解決這個(gè)問(wèn)題,遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)后來(lái)被引入到語(yǔ)言建模任務(wù)中,允許相對(duì)較長(zhǎng)的依賴關(guān)系進(jìn)行建模。

其次是長(zhǎng)期短期記憶(LSTM)和門(mén)控遞歸單元(GRU)的發(fā)展,它們利用門(mén)控機(jī)制來(lái)在訓(xùn)練中控制記憶。這些方法能夠在一個(gè)樣本中處理大約 200 個(gè)標(biāo)記(token),這與 N-gram 語(yǔ)言模型相比標(biāo)志著顯著的改善。

同時(shí),在 CV 中,在基于深度學(xué)習(xí)方法出現(xiàn)之前,傳統(tǒng)的圖像生成算法使用了紋理合成(PTS)和紋理映射等技術(shù)。

這些算法基于手工設(shè)計(jì)的特征,并且在生成復(fù)雜多樣圖像的方面能力有限。

2014 年,生成對(duì)抗網(wǎng)絡(luò)(GANs)首次被提出,因其在各種應(yīng)用中取得了令人印象深刻的結(jié)果,成為人工智能領(lǐng)域的里程碑。

變異自動(dòng)編碼器(VAEs)和其他方法,如生成擴(kuò)散模型,也被開(kāi)發(fā)出來(lái),以便對(duì)圖像生成過(guò)程進(jìn)行更細(xì)粒度的控制,并能夠生成高質(zhì)量的圖像。

生成模型在不同領(lǐng)域的發(fā)展遵循著不同的路徑,但最終出現(xiàn)了交集: Transformer 架構(gòu)。

2017 年,由 Vaswani 等人在 NLP 任務(wù)中引入 Transformer,后來(lái)應(yīng)用于 CV,然后成為各領(lǐng)域中許多生成模型的主導(dǎo)架構(gòu)。

在 NLP 領(lǐng)域,許多著名的大型語(yǔ)言模型,如 BERT 和 GPT,都采用 Transformer 架構(gòu)作為其主要構(gòu)建模塊。與之前的構(gòu)建模塊,即 LSTM 和 GRU 相比,具有優(yōu)勢(shì)。

在 CV 中,Vision Transformer (ViT) 和 Swin Transformer 后來(lái)進(jìn)一步發(fā)展了這一概念,將 Transformer 體系結(jié)構(gòu)與視覺(jué)組件相結(jié)合,使其能夠應(yīng)用于基于圖像的下行系統(tǒng)。

除了 Transformer 給單個(gè)模態(tài)帶來(lái)的改進(jìn)外,這種交叉也使來(lái)自不同領(lǐng)域的模型能夠融合在一起,執(zhí)行多模態(tài)任務(wù)。

多模態(tài)模型的一個(gè)例子是 CLIP。CLIP 是一個(gè)聯(lián)合的視覺(jué)語(yǔ)言模型。它將 Transformer 架構(gòu)與視覺(jué)組件相結(jié)合,允許在大量文本和圖像數(shù)據(jù)上進(jìn)行訓(xùn)練。

由于在預(yù)訓(xùn)練中結(jié)合了視覺(jué)和語(yǔ)言知識(shí),CLIP 也可以在多模態(tài)提示生成中作為圖像編碼器使用??傊?,基于 Transformer 模型的出現(xiàn)徹底改變了人工智能的生成,并導(dǎo)致了大規(guī)模訓(xùn)練的可能性。

近年來(lái),研究人員也開(kāi)始引入基于這些模型的新技術(shù)。

例如,在 NLP 中,為了幫助模型更好地理解任務(wù)需求,人們有時(shí)更傾向于少樣本(few-shot)提示。它指的是在提示中包含從數(shù)據(jù)集中選擇的一些示例。

在視覺(jué)語(yǔ)言中,研究人員將特定模式的模型與自監(jiān)督對(duì)比學(xué)習(xí)目標(biāo)的模式相結(jié)合,以提供更強(qiáng)大的表示。

未來(lái),隨著 AIGC 變得愈發(fā)重要,越來(lái)越多的技術(shù)將被引入,將賦予這一領(lǐng)域極大的生命力。

AIGC 基礎(chǔ)

本節(jié)中,介紹了 AIGC 常用的基礎(chǔ)模型。

基礎(chǔ)模型

Transformer

Transformer 是許多最先進(jìn)模型的骨干架構(gòu),如 GPT-3、DALL-E-2、Codex 和 Gopher。

它最早是為了解決傳統(tǒng)模型,如 RNNs,在處理變長(zhǎng)序列和上下文感知方面的局限性而提出的。

Transformer 的架構(gòu)主要是基于一種自注意力機(jī)制,使模型能夠注意到輸入序列中的不同部分。

Transformer 由一個(gè)編碼器和一個(gè)解碼器組成。編碼器接收輸入序列并生成隱藏表示,而解碼器接收隱藏表示并生成輸出序列。

編碼器和解碼器的每一層都由一個(gè)多頭注意力和一個(gè)前饋神經(jīng)網(wǎng)絡(luò)組成。多頭注意力是 Transformer 的核心組件,學(xué)習(xí)根據(jù)標(biāo)記的相關(guān)性分配不同的權(quán)重。

這種信息路由方法使該模型能夠更好地處理長(zhǎng)期的依賴關(guān)系,因此,在廣泛的 NLP 任務(wù)中提高了性能。

Transformer 的另一個(gè)優(yōu)點(diǎn)是它的架構(gòu)使其具有高度并行性,并允許數(shù)據(jù)戰(zhàn)勝歸納偏置。這一特性使得 Transformer 非常適合大規(guī)模的預(yù)訓(xùn)練,使基于 Transformer 的模型能夠適應(yīng)不同的下游任務(wù)。

預(yù)訓(xùn)練語(yǔ)言模型

自從引入 Transformer 架構(gòu)以來(lái),由于其并行性和學(xué)習(xí)能力,讓其成為自然語(yǔ)言處理的主流選擇。

一般來(lái)說(shuō),這些基于 Transformer 的預(yù)訓(xùn)練語(yǔ)言模型可以根據(jù)其訓(xùn)練任務(wù)通常分為兩類: 自回歸語(yǔ)言模型,以及掩碼語(yǔ)言模型。

給定一個(gè)由多個(gè)標(biāo)記組成的句子,掩蔽語(yǔ)言建模的目標(biāo),例如 BERT 和 RoBERTa,即預(yù)測(cè)給定上下文信息的掩蔽標(biāo)記的概率。

掩碼語(yǔ)言模型最顯著的例子是 BERT,它包括掩蔽語(yǔ)言建模和下句預(yù)測(cè)任務(wù)。RoBERTa 使用與 BERT 相同的架構(gòu),通過(guò)增加預(yù)訓(xùn)練數(shù)據(jù)量,以及納入更具挑戰(zhàn)性的預(yù)訓(xùn)練目標(biāo)來(lái)提高其性能。

XL-Net 也是基于 BERT 的,它結(jié)合了排列操作來(lái)改變每次訓(xùn)練迭代的預(yù)測(cè)順序,使模型能夠?qū)W習(xí)更多跨標(biāo)記的信息。

而自回歸語(yǔ)言模型,如 GPT-3 和 OPT,是對(duì)給定前一個(gè)標(biāo)記的概率進(jìn)行建模,因此是從左到右的語(yǔ)言模型。與掩碼語(yǔ)言模型不同,自回歸語(yǔ)言模型更適合生成式任務(wù)。

從人類反饋中強(qiáng)化學(xué)習(xí)

盡管經(jīng)過(guò)大規(guī)模數(shù)據(jù)的訓(xùn)練,AIGC 可能并不總是輸出與用戶意圖一致的內(nèi)容。

為了使 AIGC 輸出更好地符合人類的偏好,從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF)已應(yīng)用于各種應(yīng)用中的模型微調(diào),如 Sparrow、InstructGPT 和 ChatGPT。

通常情況下,RLHF 的整個(gè)流程包括以下三個(gè)步驟: 預(yù)訓(xùn)練、獎(jiǎng)勵(lì)學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的微調(diào)。

硬件

近年來(lái),硬件技術(shù)有了顯著的進(jìn)步,促進(jìn)了大模型的訓(xùn)練。

在過(guò)去,使用 CPU 訓(xùn)練一個(gè)大型神經(jīng)網(wǎng)絡(luò)可能需要幾天甚至幾周的時(shí)間。然而,隨著算力的增強(qiáng),這一過(guò)程已經(jīng)被加速了幾個(gè)數(shù)量級(jí)。

例如,英偉達(dá)的 NVIDIA A100 GPU 在 BERT 大型推理過(guò)程中比 V100 快 7 倍,比 T4 快 11 倍。

此外,谷歌的張量處理單元(TPU)專為深度學(xué)習(xí)設(shè)計(jì)的,與 A100 GPU 相比,提供了更高的計(jì)算性能。

計(jì)算能力的加速進(jìn)步顯著提高了人工智能模型訓(xùn)練的效率,為開(kāi)發(fā)大型復(fù)雜模型提供了新的可能性。

分布式訓(xùn)練

另一個(gè)重大的改進(jìn)是分布式訓(xùn)練。

在傳統(tǒng)機(jī)器學(xué)習(xí)中,訓(xùn)練通常是在一臺(tái)機(jī)器上使用單個(gè)處理器進(jìn)行的。這種方法可以很好地應(yīng)用于小型數(shù)據(jù)集和模型,但是在處理大數(shù)據(jù)集和復(fù)雜模型時(shí)就變得不切實(shí)際。

在分布式訓(xùn)練中,訓(xùn)練的任務(wù)被分散到多個(gè)處理器或機(jī)器上,使模型的訓(xùn)練速度大大提升。

一些公司也發(fā)布了框架,簡(jiǎn)化了深度學(xué)習(xí)堆棧的分布式訓(xùn)練過(guò)程。這些框架提供了工具和 API,使開(kāi)發(fā)者能夠輕松地將訓(xùn)練任務(wù)分布在多個(gè)處理器或機(jī)器上,而不必管理底層基礎(chǔ)設(shè)施。

云端運(yùn)算

云計(jì)算在訓(xùn)練大模型方面也發(fā)揮了至關(guān)重要的作用。以前,模型經(jīng)常在本地進(jìn)行訓(xùn)練?,F(xiàn)在,隨著 AWS 和 Azure 等云計(jì)算服務(wù)提供了對(duì)強(qiáng)大計(jì)算資源的訪問(wèn),深度學(xué)習(xí)研究人員和從業(yè)人員可以根據(jù)需要?jiǎng)?chuàng)建大模型訓(xùn)練所需的大型 GPU 或 TPU 集群。

總的來(lái)說(shuō),這些進(jìn)步使得開(kāi)發(fā)更復(fù)雜、更精確的模型成為可能,在人工智能研究和應(yīng)用的各個(gè)領(lǐng)域開(kāi)啟了新的可能性。

作者介紹

俞士綸(Philip S. Yu)是計(jì)算機(jī)領(lǐng)域?qū)W者,是 ACM / IEEE Fellow,在伊利諾大學(xué)芝加哥分校(UIC)計(jì)算機(jī)科學(xué)系任特聘教授。

他在大數(shù)據(jù)挖掘與管理的理論、技術(shù)方面取得了舉世矚目的成就。他針對(duì)大數(shù)據(jù)在規(guī)模、速度和多樣性上的挑戰(zhàn),在數(shù)據(jù)挖掘、管理的方法和技術(shù)上提出了有效的前沿的解決方案,尤其在融合多樣化數(shù)據(jù)、挖掘數(shù)據(jù)流、頻繁模式、子空間和圖方面做出了突破性的貢獻(xiàn)。

他還在并行和分布式數(shù)據(jù)庫(kù)處理技術(shù)領(lǐng)域做出了開(kāi)創(chuàng)性貢獻(xiàn),并應(yīng)用于 IBM S / 390 Parallel Sysplex 系統(tǒng),成功將傳統(tǒng) IBM 大型機(jī)轉(zhuǎn)型為并行微處理器架構(gòu)。

參考資料:

  • https://arxiv.org/pdf/2303.04226.pdf

本文來(lái)自微信公眾號(hào):新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:ChatGPT,人工智能

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知