谷歌 Bard 又行了?在第三方 LLM「排位賽」排行榜上,Bard 擊敗 GPT-4 成為第二名。Jeff Dean 興奮宣布:谷歌回來了!
一夜之間,Bard 逆襲 GPT-4,性能直逼最強 GPT-4 Turbo!這個聽起來似乎像夢里的事情,確確實實地發(fā)生了。
就在昨天,谷歌首席 Jeff Dean 發(fā)推提前透露了谷歌的最新版模型 ——Gemini Pro-scale?;诖?,Bard 相較于 3 月份的首次亮相,不僅在表現(xiàn)上有了顯著的提升,而且還具備了更多的能力。
可以看到,在最新的 Gemini Pro-scale 加持下,Bard 直接躥升到了排行榜第二名的位置。
一口氣把之前的兩款 GPT-4 模型斬于馬下,甚至和排名第一的 GPT-4 Turbo 的差距也非常小。
雖然 Jeff Dean 并沒有具體闡述「scale」的含義,但從名稱上推測,很可能是一個比初代 Gemini Pro 規(guī)模更大的版本。
而根據(jù)前段時間外媒曝出的內(nèi)部郵件,搭載 Gemini Ultra 的 Bard Advanced 已經(jīng)全面開放給谷歌員工試用。也就是說,距離谷歌最強模型的上線,已經(jīng)不遠了。
隨著谷歌對 Gemini Pro 更新后不斷大幅上漲的表現(xiàn),也讓所有人對完全體 Gemini Ultra 的能力有了更多的期待。
不過,新推出的 Bard 目前只接受了約 3,000 次評價,而 GPT-4 的評價次數(shù)已高達 30,000 次。因此,這個結(jié)果后續(xù)很可能還會發(fā)生變動。
但不管怎樣,這對于谷歌來說是一項令人矚目的成就,也讓人對即將發(fā)布的、預(yù)期將超過 Gemini Pro-Scale 性能的最強 AI 模型 Gemini Ultra 充滿期待。
谷歌 Bard 超越 GPT-4 躍居第二
簡單介紹一下,這個由 UC 伯克利主導(dǎo),CMU,UCSD 等頂級高校共同參與創(chuàng)建的聊天機器人競技場「Chatbot Arena」,是學(xué)術(shù)圈內(nèi)一個很權(quán)威的大模型對話能力排行榜。
榜單通過類似 Moba 游戲中的「排位賽」機制,讓各家大模型通過 PvP 的方式來排出性能高低。
期間,用戶會與模型(不知道具體型號)進行互動,并選擇他們更喜歡的回答。而這些投票將會決定模型在排行榜上的名次。
這種方式能夠有效地避免很多 PvE 基準(zhǔn)測試中可能出現(xiàn)的,通過「刷題」來提高成績的問題,被業(yè)界認(rèn)為是一個比較客觀的大模型能力排行榜。
為了便于區(qū)分,LMSYS Org 指出,目前 Gemini Pro 市面上總共有 3 個版本:
- Gemini Pro API:用戶可以通過谷歌云的 Vertex AI API 進行訪問
- Gemini Pro(dev)API:開發(fā)者 API 可以通過谷歌 AI Studio 進行訪問
- Bard(1 月 24 日更新的 Gemini Pro):是目前唯一可以訪問到 1 月 24 日更新的 Gemini Pro 的方式
同時,谷歌 Bard 項目的高級總監(jiān) Sadovsky 也透露,排行榜上的 Bard 和 Gemini Pro(API)是兩個在微調(diào)層面不同的模型,而且 Bard 可以檢索互聯(lián)網(wǎng)上的信息。
在 ChatBot Arena 中,1 月 24 號更新的 Bard 由于支持檢索互聯(lián)網(wǎng),相比于之前放出的 Gemini Pro(API)對于實時信息問題的回復(fù)提升巨大。
從谷歌的這波更新可以看出,Gemini Pro 的潛力似乎遠遠沒有被完全釋放,希望谷歌能再接再厲,對 OpenAI 一家獨大的格局形成挑戰(zhàn)。
以下是 1 月 14 號更新的 Bard 在 ChatBot Arena 中的成績的明細:
Elo 評分系統(tǒng)
Elo 等級分制度(Elo rating system)是一種計算玩家相對技能水平的方法,廣泛應(yīng)用在競技游戲和各類運動當(dāng)中。其中,Elo 評分越高,那么就說明這個玩家越厲害。
比如英雄聯(lián)盟、Dota 2 以及吃雞等等,系統(tǒng)給玩家進行排名的就是這個機制。
舉個例子,當(dāng)你在英雄聯(lián)盟里面打了很多場排位賽后,就會出現(xiàn)一個隱藏分。這個隱藏分不僅決定了你的段位,也決定了你打排位時碰到的對手基本也是類似水平的。
而且,這個 Elo 評分的數(shù)值是絕對的。也就是說,當(dāng)未來加入新的聊天機器人時,我們依然可以直接通過 Elo 的評分來判斷哪個聊天機器人更厲害。
具體來說,如果玩家 A 的評分為 Ra,玩家 B 的評分為 Rb,玩家 A 獲勝概率的精確公式(使用以 10 為底的 logistic 曲線)為:
然后,玩家的評分會在每場對戰(zhàn)后線性更新。
假設(shè)玩家 A(評分為 Ra)預(yù)計獲得 Ea 分,但實際獲得 Sa 分。更新該玩家評分的公式為:
網(wǎng)友熱議
對此,網(wǎng)友提問:現(xiàn)在能夠訪問的 Bard 就是這個排名第二的 Bard 了嗎?
谷歌官方回復(fù),是的,而且現(xiàn)在訪問的 Bard 比排行榜的上的 Bard 還能支持更多的像地圖擴展等應(yīng)用。
不過還是有網(wǎng)友吐槽,即使在 PvP 排行榜上 Bard 已經(jīng)取得了很好的成績,但是對于理解用戶需求和解決實際問題的能力,Bard 和 GPT-4 依然還有很大差距。
也有網(wǎng)友認(rèn)為,用能聯(lián)網(wǎng)的 Bard 和離線的 GPT-4 打有失公平。甚至,就這樣還沒打過……
而最有意思的,還要數(shù)網(wǎng)友在排行榜中發(fā)現(xiàn)的「華點」了:號稱是 GPT-4 最大競品的 Claude 居然越更新越弱了。
對此,之前有分析認(rèn)為,Anthropic 一直在大力發(fā)展的與人類對齊,會嚴(yán)重影響模型的性能。
GPT-4 Turbo 超長上下文 A / B 測試
有趣的是,這個連 Jeff Dean 都親自下場的「刷榜」,正巧就在 OpenAI 連發(fā) 5 款新模型的第二天。
根據(jù) OpenAI 的介紹,新版 GPT-4 Turbo——gpt-4-0125-preview,不僅大幅改善了模型「偷懶」的情況,而且還極大地提升了代碼生成的能力。
不過,正如大家對 Bard 的懷疑,GPT-4 這次到底有沒有變強也有待驗證。
對此,AI 公司 Smol 的創(chuàng)始人 Shawn Wang,就在超過 100k 單詞的超長上下文中,對比測試了新舊 GPT4-Turbo 的總結(jié)能力。
Wang 表示,兩次測試使用的是完全相同提示詞,以及基本相同的語料庫。
雖然沒有嚴(yán)格限制,但每個模型都進行了超過 300 次的 API 調(diào)用,因此對于總結(jié)任務(wù)而言,這一結(jié)果還是具有一定參考價值的。
結(jié)果顯示,2024 年 1 月的 GPT4-Turbo 花費了 19 分鐘來生成 20,265 個單詞,相比之下,2023 年 11 月的用 16 分鐘生成了 18,884 個單詞。
也就是說,新模型的生成速度大約慢了 18%,且生成文本的長度平均偏長約 7%。
質(zhì)量方面:
- 2024 年 1 月的模型在主題選擇上略有改善,但仍存在問題
- 2023 年 11 月的模型會產(chǎn)生更多錯誤信息
- 2024 年 1 月的模型在總結(jié)中添加小標(biāo)題的能力略有提升
- 2024 年 1 月的模型出現(xiàn)了一次嚴(yán)重的格式錯誤,而這在之前是極為罕見的
- 2023 年 11 月的模型文本詳情更加豐富
總體而言,新版 GPT4-Turbo 在總結(jié)這一應(yīng)用場景上有所退步。
OpenAI 最后的「開源遺作」兩周年
不得不說,AI 領(lǐng)域的發(fā)展過于迅猛,甚至讓人對時間的流速都產(chǎn)生了錯覺。
今天,英偉達高級科學(xué)家 Jim Fan 發(fā)推紀(jì)念了 InstructGPT 發(fā)布二周年。
在這里,OpenAI 定義了一套標(biāo)準(zhǔn)流程:預(yù)訓(xùn)練 -> 監(jiān)督式微調(diào) -> RLHF。直到今天,這依然是大家遵循的基本策略(盡管有些許變化,比如 DPO)。
它不僅僅是大語言模型從學(xué)術(shù)探索(GPT-3)到轉(zhuǎn)化為具有實際影響力的產(chǎn)品(ChatGPT)的關(guān)鍵轉(zhuǎn)折點,而且也是最后一篇 OpenAI 詳細說明他們?nèi)绾斡?xùn)練前沿模型的論文。
- InstructGPT 在 2022 年的 NeurIPS 會議上首次亮相,但它并不是 RLHF 的發(fā)明者。實際上,相關(guān)博客將讀者引向了 OpenAI 團隊在 2017 年完成的原始 RLHF 研究。
這項研究最初的目的是解決模擬機器人領(lǐng)域中難以明確定義的任務(wù) —— 通過一名人類標(biāo)注者提供的 900 個二選一偏好,RLHF 讓一個簡單的「跳躍」機器人在模擬環(huán)境中學(xué)會了后空翻。
- 模型提供了三種規(guī)模:1.3B、6B、175B。與舊的、需要復(fù)雜提示設(shè)計的 GPT-3-175B 相比,標(biāo)注者明顯更喜歡 Instruct-1.3B。微軟最知名的「小模型」Phi-1 也是 1.3B。
- InstructGPT 展示了如何精彩地呈現(xiàn)研究成果。三個步驟的圖表清晰易懂,并且成為 AI 領(lǐng)域最標(biāo)志性的圖像之一。引言部分直接了當(dāng),用粗體突出了 8 個核心觀點。對局限性和偏見的討論實事求是、坦誠直接。
參考資料:
https://twitter.com/JeffDean/status/1750930658900517157
https://twitter.com/asadovsky/status/1750983142041911412?s=20
https://twitter.com/DrJimFan/status/1751285761364906476
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。