設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

真不是凡爾賽,ChatGPT 如此成功,OpenAI 也不理解

新智元 2023/3/11 18:54:13 責(zé)編:夢(mèng)澤

  ChatGPT 的爆火,是 OpenAI 完全沒有想到的是。現(xiàn)在,對(duì)于自家模型的人氣和種種問(wèn)題,他們還在慢慢適應(yīng)中……

這家公司做出了或許能引爆第四次工業(yè)革命的產(chǎn)品,但他們卻百思不得其解:為啥自家的產(chǎn)品能這么火?

就,真的不是凡爾賽。

最近,MIT Technology Review 采訪了 ChatGPT 的幾位開發(fā)者,讓我們近距離地了解了這個(gè)大爆的 AI 產(chǎn)品背后的故事。

火成這樣,沒有絲毫防備

當(dāng) OpenAI 在 2022 年 11 月下旬悄無(wú)聲息地推出 ChatGPT 時(shí),這家初創(chuàng)公司并沒有報(bào)多大的期望。

OpenAI 的員工也沒想過(guò),自家模型即將走上的,是一條屬于頂流的爆紅之路。

ChatGPT 仿佛在一夜間大紅大紫,還引發(fā)了關(guān)于大語(yǔ)言模型的一場(chǎng)全球淘金熱,而 OpenAI 還沒有絲毫準(zhǔn)備,只能匆忙地趕上自己頂流模型的腳步,試圖抓住商機(jī)。

在 OpenAI 從事政策工作的 Sandhini Agarwal 說(shuō),在 OpenAI 內(nèi)部,ChatGPT 一直被視為「研究預(yù)覽」—— 它是一個(gè)兩年前技術(shù)的更完善的版本,更重要的是,公司試圖通過(guò)公眾的反饋,來(lái)消除模型的一些缺陷。

誰(shuí)能想到,這樣一個(gè)「預(yù)覽」產(chǎn)品,陰差陽(yáng)錯(cuò)出道后就爆紅了呢。

對(duì)此,OpenAI 的科學(xué)家很懵逼,對(duì)于外界的鮮花和掌聲,他們也很清醒。

「我們不想把它夸大為一個(gè)巨大的基礎(chǔ)性進(jìn)步,」參與研發(fā) ChatGPT 的 OpenAI 科學(xué)家 Liam Fedus 說(shuō)。

ChatGPT 團(tuán)隊(duì)成員當(dāng)中,有 5 位被評(píng)為 2023 年度 AI 2000 全球人工智能學(xué)者

為此,MIT Technology Review 的記者 Will Douglas Heaven 采訪了 OpenAI 的聯(lián)合創(chuàng)始人 John Schulman、開發(fā)者 Agarwal 和 Fedus、對(duì)齊團(tuán)隊(duì)的負(fù)責(zé)人 Jan Leike。

ChatGPT 為什么這么火,我們自己都不明白

創(chuàng)始人 John Schulman 表示,ChatGPT 發(fā)布后幾天,他時(shí)不時(shí)就會(huì)刷推特。有那么一段瘋狂的時(shí)期,推特信息流中全是 ChatGPT 的截圖。

他想到了這是一個(gè)對(duì)用戶很直觀的產(chǎn)品,也想到它會(huì)有一些粉絲,但沒想到它會(huì)變得這么主流。

Jan Leike 表示,一切都太突然了,所有人都很驚訝,努力地跟上 ChatGPT 爆火的節(jié)奏。他很好奇,到底是什么在推動(dòng)它的人氣飆升,難道有什么幕后推手?畢竟,OpenAI 自己都搞不清為什么 ChatGPT 能這么火。

Liam Fedus 解釋了他們?nèi)绱梭@訝的原因,因?yàn)?ChatGPT 并不是第一個(gè)通用的聊天機(jī)器人,此前就已經(jīng)有很多人嘗試過(guò)了,所以 Liam Fedus 覺得他們的機(jī)會(huì)并不大。不過(guò),私人測(cè)試版也給了他信心 —— 或許,這款 A 是用戶們真心會(huì)喜歡的東西。

Sandhini Agarwal 總結(jié)道,對(duì)所有人來(lái)說(shuō),ChatGPT 一炮而紅都是個(gè)驚喜。此前,大家在這些模型上做了太多的工作了,以至于都忘記了對(duì)于公司外部的普羅大眾來(lái)說(shuō),它是這么驚人。

的確,ChatGPT 內(nèi)的大部分技術(shù)并不新鮮。它是 GPT-3.5 的一個(gè)微調(diào)版本,而在 ChatGPT 幾個(gè)月前,OpenAI 就發(fā)布了 GPT-3.5。而 GPT-3.5 本身就是 GPT-3 的更新版本,GPT-3 出現(xiàn)于 2020 年。

ChatGPT 團(tuán)隊(duì)參與此前七大技術(shù)研發(fā)人數(shù)

在網(wǎng)站上,OpenAI 以應(yīng)用編程接口或 API 的形式提供了這些模型,其他開發(fā)者可以很輕易地將模型插入自己的代碼中。

在 2022 年 1 月,OpenAI 還發(fā)布了 GPT-3.5 的前一個(gè)微調(diào)版本 InstructGPT。只不過(guò),這些技術(shù)沒有向公眾推介罷了。

微調(diào)過(guò)程

根據(jù) Liam Fedus 的介紹,ChatGPT 模型是由與 InstructGPT 相同的語(yǔ)言模型微調(diào)而來(lái)的,使用的微調(diào)方法類似。研究人員增加了一些對(duì)話數(shù)據(jù),并對(duì)訓(xùn)練過(guò)程進(jìn)行了一些調(diào)整。所以他們不想把它夸大為一個(gè)巨大的基礎(chǔ)性進(jìn)步。

事實(shí)證明,對(duì) ChatGPT 起了大作用的,是對(duì)話數(shù)據(jù)。

根據(jù)標(biāo)準(zhǔn)基準(zhǔn)的評(píng)估,實(shí)際上兩個(gè)模型之間的原始技術(shù)能力并沒有很大差別,ChatGPT 最大的不同是,更容易獲得和使用。

Jan Leike 解釋說(shuō),在某種意義上,可以把 ChatGPT 理解為 OpenAI 已有一段時(shí)間的 AI 系統(tǒng)的一個(gè)版本。ChatGPT 的能力并沒有更強(qiáng)。在 ChatGPT 問(wèn)世之前,同樣的基本模型已經(jīng)在 API 上使用了將近一年時(shí)間。

而研究者們的改進(jìn)可以概括為,在某種意義上,讓它更符合人類想用它做什么。它會(huì)在對(duì)話中和用戶交談,是一個(gè)聊天界面,很容易訪問(wèn)。它更容易推斷出意圖,而用戶可以通過(guò)來(lái)回試探,來(lái)達(dá)到自己想要的目的。

秘訣就是,人類反饋強(qiáng)化學(xué)習(xí)(RLHF)技術(shù),這和 InstructGPT 的訓(xùn)練方式很像 —— 教會(huì)它人類用戶實(shí)際喜歡的樣子。

Jan Leike 介紹說(shuō),他們讓一大群人閱讀了 ChatGPT 的提示和回應(yīng),然后對(duì)回應(yīng)進(jìn)行二選一的選擇,看看大家認(rèn)為哪個(gè)回應(yīng)更好。然后,所有這些數(shù)據(jù)都被合并到一次訓(xùn)練中。

它的大部分內(nèi)容與他們?cè)?InstructGPT 上所做的是一樣的。比如你希望它有幫助的,希望它是真實(shí)的,希望它不會(huì)惡毒。

另外還有一些細(xì)節(jié),比如如果用戶的詢問(wèn)不清楚,它應(yīng)該問(wèn)后續(xù)的問(wèn)題去細(xì)化。它還應(yīng)該澄清,自己是一個(gè)人工智能系統(tǒng),不應(yīng)該承擔(dān)它沒有的身份,不應(yīng)該聲稱擁有它不具備的能力。當(dāng)用戶要求它做它不該做的任務(wù)時(shí),它必須明確拒絕。

也就是有一個(gè)清單,列出了人類評(píng)分員必須對(duì)模型進(jìn)行排名的各種標(biāo)準(zhǔn),比如真實(shí)性。但他們也會(huì)偏愛某些做法,比如 AI 不要假裝自己是人。

準(zhǔn)備發(fā)布

總的來(lái)說(shuō),ChatGPT 用的都是 OpenAI 已經(jīng)使用過(guò)的技術(shù),所以團(tuán)隊(duì)在準(zhǔn)備向公眾發(fā)布這個(gè)模型時(shí),沒有做任何特別的事情。在他們看來(lái),為以前的模型設(shè)定的標(biāo)準(zhǔn)已經(jīng)足夠了,GPT-3.5 已經(jīng)足夠安全。

而在 ChatGPT 對(duì)人類偏好的訓(xùn)練中,它自學(xué)了拒絕行為,拒絕了很多請(qǐng)求。

OpenAI 為 ChatGPT 組建了一些 「唱紅臉的」人:公司里的每個(gè)人都坐下來(lái),試圖打破這個(gè)模型。也有外部團(tuán)體做同樣的事情。值得信賴的早期用戶也會(huì)提供反饋。

Sandhini Agarwal 介紹道,他們確實(shí)發(fā)現(xiàn)了它會(huì)產(chǎn)生某些不需要的輸出,但這些都是 GPT-3.5 也產(chǎn)生的東西。因此,只看風(fēng)險(xiǎn)的話,作為一個(gè)「研究預(yù)覽」,ChatGPT 已經(jīng)夠好了。

John Schulman 也表示,不可能等到一個(gè)系統(tǒng) 100% 完美了,才去發(fā)布它。幾個(gè)月來(lái),他們對(duì)早期版本進(jìn)行了 beta 測(cè)試,beta 測(cè)試人員對(duì) ChatGPT 的印象很好。

OpenAI 最擔(dān)心的,其實(shí)是事實(shí)性的問(wèn)題,因?yàn)?ChatGPT 太喜歡捏造東西了。但是這些問(wèn)題在 InstructGPT 和其他大型語(yǔ)言模型中都存在,所以在研究者們看來(lái),只要 ChatGPT 在事實(shí)性和其他安全問(wèn)題上比那些模型更好,就已經(jīng)足夠了。

而根據(jù)有限的評(píng)估,在發(fā)布之前,可以確認(rèn) ChatGPT 比其他模型更真實(shí),更安全,因此,OpenAI 決定繼續(xù)發(fā)布。

發(fā)布后的反饋

ChatGPT 發(fā)布后,OpenAI 一直在觀察用戶是如何使用它的。

一個(gè)大型語(yǔ)言模型被放在數(shù)以千萬(wàn)計(jì)的用戶手中,這種事還是史上第一次。

用戶們也玩瘋了,想測(cè)試 ChatGPT 的極限在哪里,bug 在哪里。

當(dāng)然,問(wèn)題很多,比如 ChatGPT 給黑客們大開方便之門,幫忙竊取信用卡號(hào)的惡意軟件代碼,OpenAI 也在針對(duì)這些問(wèn)題不斷改進(jìn)。

ChaatGPT 的走紅,也讓許多問(wèn)題涌現(xiàn)出來(lái),比如偏見問(wèn)題,比如黑客通過(guò) prompt 誘導(dǎo)的問(wèn)題。

Jan Leike 表示,某些在推特上瘋傳的東西,其實(shí) OpenAI 已經(jīng)有人悄悄出手了。

比如越獄問(wèn)題,絕對(duì)是他們需要解決的。用戶就是喜歡嘗試通過(guò)一些彎彎繞繞讓模型說(shuō)不好的話,這在 OpenAI 的意料之內(nèi),也是一條必經(jīng)之路。

當(dāng)發(fā)現(xiàn)越獄時(shí),OpenAI 會(huì)把這些情況添加到訓(xùn)練和測(cè)試數(shù)據(jù)中,所有數(shù)據(jù)都會(huì)被納入未來(lái)的模型。

Jan Leike 表示,每當(dāng)有一個(gè)更好的模型,他們都會(huì)想把它拿出來(lái)測(cè)試。

他們非常樂觀地認(rèn)為,一些有針對(duì)性的對(duì)抗性訓(xùn)練,可以使越獄的情況得到很大的改善。雖然目前還不清楚這些問(wèn)題是否會(huì)完全消失,但他們認(rèn)為,自己可以使很多越獄行為變得困難。

當(dāng)一個(gè)系統(tǒng)「正式出道」時(shí),很難預(yù)見到所有實(shí)際會(huì)發(fā)生的事情。

因此,他們只能把重點(diǎn)放在監(jiān)測(cè)人們使用該系統(tǒng)的目的上,看看會(huì)發(fā)生什么,然后對(duì)此作出反應(yīng)。

如今,微軟已經(jīng)推出了必應(yīng) Chat,很多人認(rèn)為它是 OpenAI 官方未宣布的 GPT-4 的一個(gè)版本。

在這個(gè)前提下,Sandhini Agarwal 表示,現(xiàn)在他們面臨的賭注,肯定比六個(gè)月前高得多,但仍然低于一年后的水平。

這些模型是在什么背景下被使用的,有極其重要的意義。

對(duì)于谷歌和微軟這樣的大公司,即使有一件事不符合事實(shí),也會(huì)成為巨大的問(wèn)題,因?yàn)樗麄儽旧砭褪撬阉饕妗?/p>

谷歌的第 23 位員工、創(chuàng)建了 Gmail 的 Paul Buchheit,對(duì)谷歌持悲觀態(tài)度

作為搜索引擎的大語(yǔ)言模型,和一個(gè)只為了好玩的聊天機(jī)器人是完全不同的。OpenAI 的研究者們也在努力弄清楚,如何在不同用途之間游走,創(chuàng)造出真正對(duì)用戶有用的東西。

John Schulman 承認(rèn),OpenAI 低估了人們對(duì)于 ChatGPT 政治問(wèn)題的關(guān)心程度。為此,在收集訓(xùn)練數(shù)據(jù)時(shí),他們希望做出一些更好的決定,來(lái)減少這方面的問(wèn)題。

Jan Leike 表示,從自己的角度來(lái)看,ChatGPT 經(jīng)常出現(xiàn)失敗。有太多問(wèn)題需要解決了,但 OpenAI 并沒有解決。這一點(diǎn),他坦誠(chéng)地承認(rèn)。

盡管語(yǔ)言模型已經(jīng)存在了一段時(shí)間,但仍然處于早期。

接下來(lái),OpenAI 需要做的事情,就更多了。

參考資料:

  • https://futurism.com/the-byte/openai-confused-people-impressed-chatgpt

  • https://www.technologyreview.com/2023/03/03/1069311/inside-story-oral-history-how-chatgpt-built-openai/

本文來(lái)自微信公眾號(hào):新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:OpenAI,ChatGPT

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知