因為開源,AI 軍備競賽,谷歌和 OpenAI 全是輸家?
重磅!
谷歌的一份名為《我們沒有護城河,OpenAI 也沒有》的內部文件疑似被泄露,
今天早上,外媒 SemiAnalysis 公布了這份重磅炸彈泄露文件。
據(jù)悉,這份文件是一名匿名人士在 Discord 服務器上分享出來的,文件來自谷歌內部的一名研究員,真實性已被確認。
SemiAnalysis 特別強調,這份文件僅代表谷歌員工的意見,不代表整個公司的意見。
內部文件
我們沒有護城河,OpenAI 也沒有
我們一直在嚴密監(jiān)視著 OpenAI。誰將跨越下一個里程碑?下一步將是什么?
但現(xiàn)在,令人不安的事實就是:我們無法贏得這場軍備競賽,OpenAI 也不能。
就在我們兩方對戰(zhàn)的時候,第三方正在悄悄地吃掉屬于我們的好處。
沒錯,我說的就是開源。說白了,他們已經(jīng)超越了我們。我們認為的「重大開放問題」如今已經(jīng)解決,掌握在所有用戶手中。幾個簡單的例子:
手機上的 LLMs:在 Pixel 6 上,以每秒 5 個 token 的速度,就能運行基礎模型。
可擴展的個人 AI:只要一個晚上,就能在筆記本電腦上微調出一個個性化 AI。
負責任的發(fā)布:這一點倒是沒有「解決」,說「避免」會更貼切。現(xiàn)在網(wǎng)上到處都是充滿了各種藝術模型的網(wǎng)站,沒有任何限制,開源的大語言模型也不甘其后。
多模態(tài):當前的多模態(tài) ScienceQA SOTA,只用一個小時就能訓練出來。
雖然我們的模型在質量上仍然略有優(yōu)勢,但差距正在以驚人的速度縮小。
這些開源模型更快、更可定制、更私密,性能也更強大。
他們只用 100 美元和 13B 的參數(shù),就能做到我們用 1000 萬美元和 540B 的參數(shù)下才能做的事。他們在幾周內完成,而不是幾個月。
這對我們有著巨大的沖擊:
我們沒有獨家秘密武器了。最大的希望就是,學習其他人正在做的事,與他們合作。我們應該優(yōu)先考慮允許第三方集成。
當這些免費的、不受限的開源平替具有完全相當?shù)馁|量,用戶不會再為受限的模型付費了。我們應該考慮下,我們真正的增值在哪里。
巨型模型正在減慢我們的速度。從長遠來看,最好的模型是那些可以快速迭代的模型。既然我們知道在參數(shù)少于 200 億時模型會有怎樣的可能,我們就應該更關注小模型。
發(fā)生了什么
3 月初,隨著 Meta 的 LLaMA 被泄露給公眾,開源社區(qū)得到了第一個真正性能強大的基礎模型。它沒有指令或對話調整,也沒有 RLHF。
盡管如此,開源社區(qū)立刻明白:他們得到的東西有多么重要。
隨后,大量創(chuàng)新的開源平替模型不斷地涌現(xiàn)出來。每隔幾天,就出現(xiàn)一個大進展。
才短短一個月,就有了指令調整、量化、質量改進、人工評估、多模態(tài)、RLHF 這么多功能的變體,許多還是建立在彼此的基礎上的。
最重要的是,他們已經(jīng)解決了規(guī)模的問題,現(xiàn)在任何一個人,都可以參與其中。
如今,許多全新的想法都來自普通人。訓練和實驗的門檻已經(jīng)大大降低,從前需要一個大型研究機構合力工作,現(xiàn)在,只需要一臺功能強大的筆記本,一個人在一晚上就能搞定。
我們本可以預見到這一切
這對任何人來說,都不算什么驚喜。圖像生成領域的復興之后,緊接著就是開源 LLM 的復興。
許多人說,這就是大語言模型的“Stable Diffusion”時刻。
在這兩個領域,讓公眾能夠以低成本參與,都是通過低秩適應(LoRA)來實現(xiàn)的。它讓微調機制的成本大大降低,
還實現(xiàn)了模型規(guī)模的重大突破。(比如圖像合成的 Latent Diffusion,LLM 的 Chinchilla)
在獲得足夠高質量的模型后,世界各地的個人和機構都開始了一系列對模型的創(chuàng)新和迭代。而這些創(chuàng)新,也迅速超越了大科技公司。
在圖像生成領域,這些貢獻至關重要,使 Stable Diffusion 走上了與 Dall-E 完全不同的道路。
Stable Diffuision 的開源,導致了產(chǎn)品集成、市場、用戶界面的創(chuàng)新,而在 Dall-E 身上,這些卻沒有發(fā)生。
這樣做的后果是顯而易見的,Stable Diffusion 迅速占據(jù)了主流,與之相比,OpenAI 的解決方案已經(jīng)變得無關緊要了。
同樣的事情是否會發(fā)生在 LLM 領域?目前還未知,但這兩件事,有太多相似之處。
我們錯過了什么?
開源社區(qū)最近取得成功的很多創(chuàng)新,直接解決了我們還未解決的很多難題。
更多地關注他們的工作,可以幫我們避免重新造輪子。
LoRA 是一種非常強大的技術,我們可能應該對它更加關注。
LoRA 通過將模型更新表示為低秩分解來工作,這將更新矩陣的大小減少了數(shù)千倍以上。
這就讓模型微調的時間和成本都大大降低。
如果在幾個小時內,就能在消費級硬件上微調出一個個性化的語言模型,這件事的意義就太重大了。尤其是,它還可以實時整合許多最新的、多樣化的知識。
但這項技術在谷歌內部并未得到充分重視,盡管它直接影響了我們最寄予厚望的項目。
從頭開始重新訓練模型,是一條艱難的道路
LoRA 如此有效的部分原因在于,與其他形式的微調一樣,它是可堆疊的。
可以應用指令調整改進模型,這樣在其他貢獻者添加對話、推理或工具時,就可以直接使用。
雖然單獨的微調是低秩的,但它們的總和不需要,因此模型的全秩更新就可以隨著時間的推移而累積。
這意味著,只要有新的、更好的數(shù)據(jù)集和任務出現(xiàn),模型就可以以低廉的成本保持最新狀態(tài),無需支付完整運行的成本。
相比之下,從頭開始訓練巨型模型不僅會失去預訓練的過程,還會失去在頂部進行的任何迭代改進。
在開源世界中,這些改進很快就會占據(jù)主導地位,這使得全面重新訓練模型的成本極其昂貴。
我們應該考慮,每個新的應用或想法是否真的需要一個全新的模型?
如果我們真的有重大的架構改進,以至于無法直接重新使用模型權重,那么我們應該去投資更積極的蒸餾形式,來盡可能多地保留上一代模型的功能。
如果我們能夠在小模型上快速迭代,那么從長遠來看,大模型并不是強到無所不能
LoRA(大型語言模型的低秩適應)是微軟提出的一種新穎技術,旨在解決微調大型語言模型的問題。
它的更新對于最受歡迎的模型大小來說非常便宜(約 100 美元),這意味著幾乎任何有想法的人都可以生成一個,并分發(fā)出去。
以后,一天之內訓練一個模型都是平平事。
以這樣的速度,用不了多久,這些微調的累積效應很快就會彌補起初的模型大小的劣勢。
事實上,這些模型的改進速度遠遠超過了我們使用最大模型所能做的,而且最好的模型與 ChatGPT 在很大程度上已經(jīng)無法區(qū)分。
專注于研究一些大模型,反而讓我們處于不利地位。
要數(shù)據(jù)質量,不要數(shù)據(jù)規(guī)模
許多項目通過對小型、精選數(shù)據(jù)集上進行訓練來節(jié)省時間。這表明數(shù)據(jù)擴展規(guī)律具有一定的靈活性。
這樣數(shù)據(jù)集的存在源于「Data Doesn't Do What You Think」一文中的思路,它們正迅速成為在谷歌之外進行訓練的標準方式。
這些數(shù)據(jù)集是通過合成方法(比如,從現(xiàn)有模型中篩選出最佳響應)和從其他項目中搜集而構建。谷歌在這兩者中都不占主導地位。
幸運的是,這些高質量的數(shù)據(jù)集是開源的,因此可以免費使用。
與開源直接競爭,是一個失敗的命題
AI 新進展對谷歌的商業(yè)戰(zhàn)略有著直接、即時的影響。如果有一個免費的、高質量、且沒有使用限制的替代品,誰會為谷歌產(chǎn)品付費?
而且我們不應該指望能夠趕上。現(xiàn)代互聯(lián)網(wǎng)之所以依賴開源,是有原因的。開放源碼有一些我們無法復制的顯著優(yōu)勢。
比起他們需要我們,我們更需要他們
我們技術的保密一直是一個脆弱的命題。
谷歌的研究人員正定期離開,前往其他公司。所以我們可以假設他們知道我們所知道的一切。而且只要這條渠道是開放的,他們就會繼續(xù)這樣做。
但是,由于 LLM 的前沿研究成本低廉,保持技術領域的競爭優(yōu)勢變得更加困難。
世界各地的研究機構都在相互借鑒,以廣度優(yōu)先的方式探索遠遠超出我們自身能力的解決方案空間。
我們可以試著緊緊抓住我們的秘密,而外部創(chuàng)新會削弱了其價值,又或者我們可以嘗試著互相學習。
與公司相比,個人受到許可的限制程度較小
近來,模型的創(chuàng)新大多在 Meta 的 LLaMA 模型權重泄露之后進行的。
雖然這肯定會隨著真正的開源模型變得更好而改變,但關鍵是他們不必等待。
「個人使用」所提供的法律保護以及起訴個人的不切實際意味著,個人在這些技術熾熱時就能獲得這些技術。
作為自己的客戶意味著,你理解用例
瀏覽人們在圖像生成領域中創(chuàng)建的模型,從動畫生成器到 HDR 景觀,創(chuàng)造力源源不斷地涌現(xiàn)出來。
這些模型由深入特定子類型的人使用和創(chuàng)建,賦予了我們無法企及的知識深度和共鳴。
擁有生態(tài)系統(tǒng):讓開源為我們工作
矛盾的是,大廠競相爭先的背后,贏家就是 Meta。
因為泄露的模型 LLaMA 是他們的,所以相當于他們有效地獲得了整個星球價值的免費勞動力。
由于大多數(shù)開源創(chuàng)新都基于 LLaMA,所以沒有什么能阻止他們直接將其納入自己的產(chǎn)品中。
擁有生態(tài)系統(tǒng)的價值,未來將不可估量。曾經(jīng)的谷歌已經(jīng)成功地在其開源產(chǎn)品(如 Chrome 和 Android)中使用了這一范式。
通過擁有創(chuàng)新發(fā)生的平臺,谷歌鞏固了自己作為思想領袖和方向制定者的地位。
我們對模型的控制越嚴格,開源替代品就越有吸引力。
谷歌和 OpenAI 都傾向于嚴格控制模型使用,開啟一種防御性的反應。
但是這種控制只是虛構的,因為任何試圖將 LLMs 用于未經(jīng)批準的目的的人,都可以選擇自由提供的模型。
谷歌應該在開源社區(qū)中確立自己的領導地位,通過合作來發(fā)揮引領作用。
這可能意味著要采取一些令人不安的步驟,比如發(fā)布小型 ULM 變體的模型權重。這必然意味著放棄對我們模型的一些控制。
但這種妥協(xié)是不可避免的。我們不能同時做到既推動創(chuàng)新,又控制創(chuàng)新。
結束語:OpenAI 怎么樣?
鑒于 OpenAI 目前的封閉政策,所有關于開源的討論可能讓人覺得不公平。
如果他們不愿意,我們?yōu)槭裁匆窒砟??但事實是,我們正通過源源不斷地被挖走的高級研究人員與他們分享了一切。
在我們阻止這股潮流之前,保密是沒有意義的。
最后,OpenAI 并不重要。
相對于開放源代碼,他們正在犯同樣的錯誤,他們保持優(yōu)勢的能力必然受到質疑。
除非他們改變立場,否則開源替代品可以,而且最終會超越他們。至少在這方面,我們可以先行一步。
開源時間線
23 年 2 月 24 日,LLAMA 發(fā)布
Meta 發(fā)布 LLaMA,開源代碼,但沒有公布權重。此時,LLaMA 尚未進行指令或對話調優(yōu)。
與許多當前模型一樣,它是一個相對較小的模型(參數(shù)分別為 7B、13B、33B 和 65B),經(jīng)過相對較長時間的訓練,因此與其大小相比具有相當強大的能力。
23 年 3 月 3 日,不可避免的事情發(fā)生了
不到一周,LLAMA 就被泄露給了公眾。Meta 現(xiàn)有的許可禁止將 LLAMA 用于商業(yè)目的。
突然之間,任何人都可以進行試驗。在整個社區(qū),掀起了模型創(chuàng)新的海嘯。
23 年 3 月 12 日,語言模型在烤箱上運行
一個多星期后,Artem Andreenko 成功在樹莓派上運行模型。當時,模型運行速度非常慢,因為權重必須在內存中分頁,實用性不強。
盡管如此,這為一系列縮小模型規(guī)模的努力奠定了基礎。
23 年 3 月 13 日,筆記本電腦上的微調
第二天,斯坦福發(fā)布了 Alpaca,它為 LLaMA 增加了指令調優(yōu)功能。
然而,重要的是,Eric Wang 的 alpaca-lora 倉庫,它使用 LoRA 在單個 RTX 4090 上幾小時內完成了這個訓練。
從這時起,突然間,任何人都可以對模型進行微調,引發(fā)了一場關于低成本微調模型的競爭。
許多鋪天蓋地的報道稱 xxx 模型總共花費了幾百美元。
更重要的是,低秩更新可以輕松地與原始權重分開分發(fā),使他們擺脫了 Meta 原始許可的約束。任何人都可以分享和應用它們。
23 年 3 月 18 日,變得更快了
GeorgiGerganov 使用 4 位量化在 MacBookCPU 上運行 LLaMA。
這是第一個「無 GPU」解決方案,速度足夠快,實用性很強。
23 年 3 月 19 日,一個 13B 型實現(xiàn)了與 Bard 的「平衡」
第二天,一個跨大學的合作發(fā)布了 Vicuna,并使用 GPT-4 驅動的評估對模型輸出進行定性比較。雖然評估方法值得懷疑,但該模型實質上比早期的變體更好。
最最重要的是,只用了 300 美元進行訓練。
值得注意的是,他們能夠使用來自 ChatGPT 的數(shù)據(jù),同時規(guī)避其 API 的限制
他們只需從像 ShareGPT 這樣的網(wǎng)站上獲取令人印象深刻的 ChatGPT 對話樣本。
23 年 3 月 25 日,選擇自己的模型
Nomic 創(chuàng)建了 GPT4All,它既是一個模型,更重要的是,它也是一個生態(tài)系統(tǒng)。
所有人第一次看到模型(包括 Vicuna)匯集在一個地方。訓練費用: 100 美元。
23 年 3 月 28 日,開源版 GPT-3
Cerebras 使用 Chinchilla 暗示的最佳計算計劃和 μ 參數(shù)化暗示的最佳縮放(optimal scaling)來訓練 GPT-3 架構。
這比現(xiàn)有的 GPT-3 克隆有很大的優(yōu)勢,代表了 μ 參數(shù)化在實際應用中的首次使用。這些模型是從零開始訓練的,這意味著社區(qū)不再依賴 LLaMA。
23 年 3 月 28 日,一小時完成多模態(tài)訓練
LLaMA-Adapter 采用一種新的參數(shù)有效微調(PEFT)技術,在一個小時的訓練中引入指令調優(yōu)和多模態(tài)。
令人印象深刻的是,它們只使用了 120 萬個可學習參數(shù)。該模型在多模態(tài) ScienceQA 上刷新了 SOTA。
23 年 4 月 3 日,人們無法區(qū)分 13B 開源模型和 ChatGPT
伯克利發(fā)布了 Koala,這是一個完全使用免費數(shù)據(jù)進行訓練的對話模型。
他們采取了衡量真實人類在 Koala 和 ChatGPT 之間的偏好的關鍵步驟。
雖然 ChatGPT 仍然稍占上風,但超過 50% 的時間,用戶要么更喜歡 Koala,要么無所謂。訓練費用: 100 美元。
23 年 4 月 15 日,ChatGPT 級的開源 RLHF
Open Assistant 發(fā)布了一個模型,更重要的是,發(fā)布了一個用于通過 RLHF 進行對齊的數(shù)據(jù)集。
這一模型在人類偏好方面接近 ChatGPT (48.3%:51.7%)。
除了 LLaMA 之外,他們還展示了這個數(shù)據(jù)集可以應用到 Pythia-12B 上,為人們使用一個完全打開的堆棧來運行模型提供了選擇。
此外,由于數(shù)據(jù)集是公開可用的,它使得對于小型實驗者來說,RLHF 從不可實現(xiàn)變得便宜,且容易。
谷歌筑墻,啪啪打臉
雖說開源是勝利,但現(xiàn)在的谷歌卻反身架起城墻,拒絕開源。
今年 2 月,長期擔任谷歌人工智能部門負責人 Jeff Dean 對內宣布了一項令人震驚的政策轉變:
推遲與外界分享內部工作。
多年來,Dean 一直把部門當作一所大學來管理,鼓勵研究人員大量發(fā)表學術論文。據(jù) Google Research 顯示,自 2019 年以來,他們推動了近 500 項研究。
自 ChatGPT 誕生以來,一路風生水起,顯然讓谷歌一時慌了神,并就此必須做出改變。
Dean 表示,谷歌在人工智能領域的發(fā)現(xiàn)只有轉化成產(chǎn)品后,才會共享論文。
Jeff Dean 在谷歌研究部門的季度會議上表示,這家位于舊金山的初創(chuàng)公司 OpenAI,通過學習團隊的論文,才跟上了谷歌的步伐。
我們都知道,ChatGPT 中的 T 便指的是谷歌 Transformer 架構,是以 Transformer 架構為核心的大型語言模型。
為了追趕 ChatGPT,谷歌開啟了防御模式。這對谷歌來說,是一個重大轉變。
這一政策首先是為了抵御一批強大的 AI 競爭對手,另外是為了保護其核心搜索業(yè)務、以及可能的未來。
然而正如內部文件泄露所稱,谷歌不是勝者,OpenAI 也不是,真正的贏家才是 Meta。
開源的勝利,谷歌曾嘗過?,F(xiàn)在,是該做些改變了。
參考資料:
https://www.semianalysis.com/p/google-we-have-no-moat-and-neither
https://www.washingtonpost.com/technology/2023/05/04/google-ai-stop-sharing-research/?utm_source=reddit.com
本文來自微信公眾號:新智元 (ID:AI_era)
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。