臨近年底,谷歌終于放大招了!
剛剛結(jié)束的 AI@年度活動(dòng)上,谷歌一口氣發(fā)布了四項(xiàng)最新的 AIGC 技術(shù)成果。
其中最引人注意的要數(shù)文本圖像模型 Imagen 首次開(kāi)放測(cè)試,敲黑板,這次安卓、蘋(píng)果都能玩。
其他有趣的產(chǎn)品,還有 AI 寫(xiě)作協(xié)助工具 LaMDA Wordcraft、結(jié)合 Imagen Video 和 Phenaki 優(yōu)勢(shì)的超長(zhǎng)連貫性視頻生成模型等等。
而且,除了官方的總結(jié),幾位來(lái)自谷歌的科學(xué)家也在推特分享了自己心中谷歌 AI 研究的新進(jìn)展。
具體有哪些?一起往下看。
Imagen 首次開(kāi)放測(cè)試
自推出以來(lái),Imagen 一直被與 OpenAI 的 DALL-E 2、Stability AI 的 Stable Diffusion 相比較,但不同的是,谷歌一直沒(méi)有將該系統(tǒng)向公眾開(kāi)放。
現(xiàn)在,谷歌終于松口,宣布將把 Imagen 添加到其 AI Test Kitchen 應(yīng)用中。
AI Test Kitchen,是今年 I / O 大會(huì)上,谷歌推出的一款用于對(duì)各種 AI 系統(tǒng)進(jìn)行測(cè)試的應(yīng)用程序,目前蘋(píng)果、安卓用戶都能下載。
最初的時(shí)候,用戶僅可以在上面與 AI 聊天機(jī)器人 LaMDA 2 進(jìn)行交流,此次更新將添加兩種與 Imagen 互動(dòng)的新方式:城市夢(mèng)想家和 Wobble。
在“城市夢(mèng)想家”中,你可以用文字命令建造不同主題的城市,其中,Imagen 模型承擔(dān)了創(chuàng)建樣本建筑和地塊(城市廣場(chǎng)、公寓樓、機(jī)場(chǎng)等)的作用。
在 Wobble 中,你可以創(chuàng)造一個(gè)小怪物,DIY 它的材質(zhì)(粘土、毛氈、橡膠等),然后給它穿上你選擇的衣服,還可以戳戳它,讓它“跳舞”。
盡管與其他文本到圖像的模式相比,這些互動(dòng)方式看上去還比較受限制,但谷歌產(chǎn)品管理高級(jí)總監(jiān)喬希?伍德沃德(Josh Woodward)解釋稱,這一步的意義在于獲得公眾對(duì)這些 AI 系統(tǒng)的反饋,以及測(cè)試哪些行為會(huì)使得系統(tǒng)崩潰。
其他 AIGC 產(chǎn)品
除了最受關(guān)注的 Imagen 模型,谷歌還宣布了在其他內(nèi)容格式上的 AI 內(nèi)容生成技術(shù)。
比如 LaMDA Wordcraft,一個(gè)在大語(yǔ)言模型 LaMDA 基礎(chǔ)上開(kāi)發(fā)的、能輔助專業(yè)作家寫(xiě)作的 AI 寫(xiě)文工具。
它的作用,是在創(chuàng)作者寫(xiě)作的過(guò)程當(dāng)中,根據(jù)現(xiàn)有的文本產(chǎn)生新的想法,或者幫助重寫(xiě)已有文句,從而幫助創(chuàng)作者突破“創(chuàng)作瓶頸”。
值得一提的是,下圖中的“Evaluative Soliloquies”就是作家劉宇昆(《三體》英文版譯者)在 Wordcraft 幫助下撰寫(xiě)的短篇小說(shuō)。
除此之外,谷歌還結(jié)合了 Imagen Video 和 Phenaki 兩大模型的優(yōu)勢(shì),推出了一個(gè)能生成超長(zhǎng)連貫性視頻的新模型。
還有 AudioLM,一個(gè)無(wú)需文字和音樂(lè)符號(hào)訓(xùn)練,僅通過(guò)聆聽(tīng)音頻樣本,就可以繼續(xù)生成填補(bǔ)樂(lè)曲的音頻模型。
說(shuō)完這些谷歌官方公布的新技術(shù),讓我們?cè)賮?lái)看看谷歌的科學(xué)家們自己是怎么說(shuō)的。
谷歌科學(xué)家眼里的新進(jìn)展
除了產(chǎn)品層面,今年谷歌 AI 研究的新進(jìn)展還有哪些?
谷歌大腦的工程師周登勇在推特上分享了自己的看法:大模型學(xué)會(huì)了如何解釋答案,檢查答案,并將復(fù)雜問(wèn)題分解成子問(wèn)題解決。
而這一切還要從谷歌今年 1 月發(fā)布的一篇論文“Chain of Thought Prompting Elicits Reasoning in Large Language Models”開(kāi)始說(shuō)起。
就是在這篇論文中,谷歌首次提出了思維鏈提示(chain of thought prompting)的概念。
簡(jiǎn)單來(lái)說(shuō),思維鏈提示就是一種特殊的上下文學(xué)習(xí),不同于標(biāo)準(zhǔn)提示只是給出輸入-輸出對(duì)的示例(如下圖左),思維鏈提示還會(huì)額外增加一段推理的過(guò)程(如下圖右)。
這一步的目的是讓模型模仿并為當(dāng)前問(wèn)題生成自己的思維過(guò)程,最終提高生成結(jié)果的準(zhǔn)確性。
該方法在 LaMDA-137B、GPT-3 175B、PaLM-540B 三個(gè)大型語(yǔ)言模型上都得到了驗(yàn)證:對(duì)比標(biāo)準(zhǔn)提示,新方法在算術(shù)、常識(shí)和符號(hào)推理任務(wù)的準(zhǔn)確率上都有了明顯的提高。
并且,隨著模型參數(shù)量級(jí)的提升,思維鏈提示的效果也呈指數(shù)級(jí)上升。
尤其是配合上谷歌的超級(jí)語(yǔ)言模型 PaLM-540B,在包括數(shù)學(xué)問(wèn)題在內(nèi)的多個(gè)推理基準(zhǔn)測(cè)試中達(dá)到了 SOTA 水平,甚至超過(guò)了使用驗(yàn)證器進(jìn)行微調(diào)的 GPT-3。
很快,兩個(gè)月后該團(tuán)隊(duì)又對(duì)該研究進(jìn)行了跟進(jìn)。
這篇文章幾乎使用了和初代文章完全一樣的數(shù)據(jù)集和設(shè)置,主要改進(jìn)是提出了一種稱為自洽性(self-consistency)的簡(jiǎn)單策略。
簡(jiǎn)單來(lái)說(shuō),就像人在思考時(shí)會(huì)想出幾種不同的解決方案再作出判斷一樣,自洽方法會(huì)通過(guò)思維提示鏈從語(yǔ)言模型中采樣一組不同的推理路徑,再對(duì)答案進(jìn)行多數(shù)投票(majority vote),最后返回其中最自洽的答案。
這一步優(yōu)化不僅意味著離模仿人類思維模式更近一步,還做到了顯著地提高思維鏈方法的性能。
最新的進(jìn)展是,為了解決從易到難的泛化問(wèn)題,該團(tuán)隊(duì)又提出了一種新穎的提示策略。
它將復(fù)雜問(wèn)題簡(jiǎn)化為一系列子問(wèn)題,然后依次解決這些子問(wèn)題,從而通過(guò)對(duì)先前解決的子問(wèn)題的答案來(lái)促進(jìn)解決給定的子問(wèn)題。
就這樣,谷歌正在訓(xùn)練 AI 一步步朝著人類的思維模式靠近。
最后,說(shuō)了這么多,這一年,你印象最深的谷歌 AI 研究是什么?
參考鏈接:
[1]https://twitter.com/dmvaldman/status/1587525225209425921
[2]https://arxiv.org/abs/2201.11903
[3]https://arxiv.org/abs/2203.11171
[4]https://arxiv.org/abs/2205.10625
本文來(lái)自微信公眾號(hào):量子位 (ID:QbitAI),作者:羿閣
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。