首頁(yè) > 智能時(shí)代>人工智能

谷歌 Imagen 首次開(kāi)放測(cè)試，安卓蘋(píng)果都能玩，還有 AI 寫(xiě)作助手、超長(zhǎng)連貫性視頻生成模型

量子位 2022/11/3 16:58:43 責(zé)編：云熙

評(píng)論：

臨近年底，谷歌終于放大招了！

剛剛結(jié)束的 AI@年度活動(dòng)上，谷歌一口氣發(fā)布了四項(xiàng)最新的 AIGC 技術(shù)成果。

其中最引人注意的要數(shù)文本圖像模型 Imagen 首次開(kāi)放測(cè)試，敲黑板，這次安卓、蘋(píng)果都能玩。

谷歌 Imagen 首次開(kāi)放測(cè)試，安卓蘋(píng)果都能玩，還有 AI 寫(xiě)作助手、超長(zhǎng)連貫性視頻生成模型

其他有趣的產(chǎn)品，還有 AI 寫(xiě)作協(xié)助工具 LaMDA Wordcraft、結(jié)合 Imagen Video 和 Phenaki 優(yōu)勢(shì)的超長(zhǎng)連貫性視頻生成模型等等。

谷歌 Imagen 首次開(kāi)放測(cè)試，安卓蘋(píng)果都能玩，還有 AI 寫(xiě)作助手、超長(zhǎng)連貫性視頻生成模型

而且，除了官方的總結(jié)，幾位來(lái)自谷歌的科學(xué)家也在推特分享了自己心中谷歌 AI 研究的新進(jìn)展。

具體有哪些？一起往下看。

Imagen 首次開(kāi)放測(cè)試

自推出以來(lái)，Imagen 一直被與 OpenAI 的 DALL-E 2、Stability AI 的 Stable Diffusion 相比較，但不同的是，谷歌一直沒(méi)有將該系統(tǒng)向公眾開(kāi)放。

現(xiàn)在，谷歌終于松口，宣布將把 Imagen 添加到其 AI Test Kitchen 應(yīng)用中。

AI Test Kitchen，是今年 I / O 大會(huì)上，谷歌推出的一款用于對(duì)各種 AI 系統(tǒng)進(jìn)行測(cè)試的應(yīng)用程序，目前蘋(píng)果、安卓用戶都能下載。

谷歌 Imagen 首次開(kāi)放測(cè)試，安卓蘋(píng)果都能玩，還有 AI 寫(xiě)作助手、超長(zhǎng)連貫性視頻生成模型

最初的時(shí)候，用戶僅可以在上面與 AI 聊天機(jī)器人 LaMDA 2 進(jìn)行交流，此次更新將添加兩種與 Imagen 互動(dòng)的新方式：城市夢(mèng)想家和 Wobble。

在“城市夢(mèng)想家”中，你可以用文字命令建造不同主題的城市，其中，Imagen 模型承擔(dān)了創(chuàng)建樣本建筑和地塊（城市廣場(chǎng)、公寓樓、機(jī)場(chǎng)等）的作用。

谷歌 Imagen 首次開(kāi)放測(cè)試，安卓蘋(píng)果都能玩，還有 AI 寫(xiě)作助手、超長(zhǎng)連貫性視頻生成模型

在 Wobble 中，你可以創(chuàng)造一個(gè)小怪物，DIY 它的材質(zhì)（粘土、毛氈、橡膠等），然后給它穿上你選擇的衣服，還可以戳戳它，讓它“跳舞”。

谷歌 Imagen 首次開(kāi)放測(cè)試，安卓蘋(píng)果都能玩，還有 AI 寫(xiě)作助手、超長(zhǎng)連貫性視頻生成模型

盡管與其他文本到圖像的模式相比，這些互動(dòng)方式看上去還比較受限制，但谷歌產(chǎn)品管理高級(jí)總監(jiān)喬希?伍德沃德（Josh Woodward）解釋稱，這一步的意義在于獲得公眾對(duì)這些 AI 系統(tǒng)的反饋，以及測(cè)試哪些行為會(huì)使得系統(tǒng)崩潰。

其他 AIGC 產(chǎn)品

除了最受關(guān)注的 Imagen 模型，谷歌還宣布了在其他內(nèi)容格式上的 AI 內(nèi)容生成技術(shù)。

比如 LaMDA Wordcraft，一個(gè)在大語(yǔ)言模型 LaMDA 基礎(chǔ)上開(kāi)發(fā)的、能輔助專業(yè)作家寫(xiě)作的 AI 寫(xiě)文工具。

它的作用，是在創(chuàng)作者寫(xiě)作的過(guò)程當(dāng)中，根據(jù)現(xiàn)有的文本產(chǎn)生新的想法，或者幫助重寫(xiě)已有文句，從而幫助創(chuàng)作者突破“創(chuàng)作瓶頸”。

值得一提的是，下圖中的“Evaluative Soliloquies”就是作家劉宇昆（《三體》英文版譯者）在 Wordcraft 幫助下撰寫(xiě)的短篇小說(shuō)。

谷歌 Imagen 首次開(kāi)放測(cè)試，安卓蘋(píng)果都能玩，還有 AI 寫(xiě)作助手、超長(zhǎng)連貫性視頻生成模型

除此之外，谷歌還結(jié)合了 Imagen Video 和 Phenaki 兩大模型的優(yōu)勢(shì)，推出了一個(gè)能生成超長(zhǎng)連貫性視頻的新模型。

谷歌 Imagen 首次開(kāi)放測(cè)試，安卓蘋(píng)果都能玩，還有 AI 寫(xiě)作助手、超長(zhǎng)連貫性視頻生成模型

還有 AudioLM，一個(gè)無(wú)需文字和音樂(lè)符號(hào)訓(xùn)練，僅通過(guò)聆聽(tīng)音頻樣本，就可以繼續(xù)生成填補(bǔ)樂(lè)曲的音頻模型。

谷歌 Imagen 首次開(kāi)放測(cè)試，安卓蘋(píng)果都能玩，還有 AI 寫(xiě)作助手、超長(zhǎng)連貫性視頻生成模型

說(shuō)完這些谷歌官方公布的新技術(shù)，讓我們?cè)賮?lái)看看谷歌的科學(xué)家們自己是怎么說(shuō)的。

谷歌科學(xué)家眼里的新進(jìn)展

除了產(chǎn)品層面，今年谷歌 AI 研究的新進(jìn)展還有哪些？

谷歌大腦的工程師周登勇在推特上分享了自己的看法：大模型學(xué)會(huì)了如何解釋答案，檢查答案，并將復(fù)雜問(wèn)題分解成子問(wèn)題解決。

谷歌 Imagen 首次開(kāi)放測(cè)試，安卓蘋(píng)果都能玩，還有 AI 寫(xiě)作助手、超長(zhǎng)連貫性視頻生成模型

而這一切還要從谷歌今年 1 月發(fā)布的一篇論文“Chain of Thought Prompting Elicits Reasoning in Large Language Models”開(kāi)始說(shuō)起。

谷歌 Imagen 首次開(kāi)放測(cè)試，安卓蘋(píng)果都能玩，還有 AI 寫(xiě)作助手、超長(zhǎng)連貫性視頻生成模型

就是在這篇論文中，谷歌首次提出了思維鏈提示（chain of thought prompting）的概念。

簡(jiǎn)單來(lái)說(shuō)，思維鏈提示就是一種特殊的上下文學(xué)習(xí)，不同于標(biāo)準(zhǔn)提示只是給出輸入-輸出對(duì)的示例（如下圖左），思維鏈提示還會(huì)額外增加一段推理的過(guò)程（如下圖右）。

這一步的目的是讓模型模仿并為當(dāng)前問(wèn)題生成自己的思維過(guò)程，最終提高生成結(jié)果的準(zhǔn)確性。

谷歌 Imagen 首次開(kāi)放測(cè)試，安卓蘋(píng)果都能玩，還有 AI 寫(xiě)作助手、超長(zhǎng)連貫性視頻生成模型

該方法在 LaMDA-137B、GPT-3 175B、PaLM-540B 三個(gè)大型語(yǔ)言模型上都得到了驗(yàn)證：對(duì)比標(biāo)準(zhǔn)提示，新方法在算術(shù)、常識(shí)和符號(hào)推理任務(wù)的準(zhǔn)確率上都有了明顯的提高。

并且，隨著模型參數(shù)量級(jí)的提升，思維鏈提示的效果也呈指數(shù)級(jí)上升。

尤其是配合上谷歌的超級(jí)語(yǔ)言模型 PaLM-540B，在包括數(shù)學(xué)問(wèn)題在內(nèi)的多個(gè)推理基準(zhǔn)測(cè)試中達(dá)到了 SOTA 水平，甚至超過(guò)了使用驗(yàn)證器進(jìn)行微調(diào)的 GPT-3。

谷歌 Imagen 首次開(kāi)放測(cè)試，安卓蘋(píng)果都能玩，還有 AI 寫(xiě)作助手、超長(zhǎng)連貫性視頻生成模型

很快，兩個(gè)月后該團(tuán)隊(duì)又對(duì)該研究進(jìn)行了跟進(jìn)。

谷歌 Imagen 首次開(kāi)放測(cè)試，安卓蘋(píng)果都能玩，還有 AI 寫(xiě)作助手、超長(zhǎng)連貫性視頻生成模型

這篇文章幾乎使用了和初代文章完全一樣的數(shù)據(jù)集和設(shè)置，主要改進(jìn)是提出了一種稱為自洽性（self-consistency）的簡(jiǎn)單策略。

簡(jiǎn)單來(lái)說(shuō)，就像人在思考時(shí)會(huì)想出幾種不同的解決方案再作出判斷一樣，自洽方法會(huì)通過(guò)思維提示鏈從語(yǔ)言模型中采樣一組不同的推理路徑，再對(duì)答案進(jìn)行多數(shù)投票（majority vote），最后返回其中最自洽的答案。

谷歌 Imagen 首次開(kāi)放測(cè)試，安卓蘋(píng)果都能玩，還有 AI 寫(xiě)作助手、超長(zhǎng)連貫性視頻生成模型