OpenAI 找回場(chǎng)子：chatgpt-4o-latest AI 模型力壓谷歌 Gemini 1.5 Pro，多項(xiàng)跑分重奪第一

2024/8/14 12:33:56 來(lái)源：IT之家作者：故淵責(zé)編：故淵

評(píng)論：

IT之家 8 月 14 日消息，谷歌上周發(fā)布最強(qiáng) Gemini 1.5 Pro 模型，在 LMSYS 的聊天機(jī)器人競(jìng)技場(chǎng)（Chatbot Arena）比賽中取得第一名，而 OpenAI 迅速“找回場(chǎng)子”，最新 chatgpt-4o-latest 模型重奪第一。

chatgpt-4o-latest 簡(jiǎn)介

OpenAI 公司上周發(fā)布了 gpt-4o-2024-08-06，其 API 支持結(jié)構(gòu)化輸出；昨日再次發(fā)布了名為 chatgpt-4o-latest 的全新前沿模型，是 GPT-4o 的最新版本，上下文窗口輸入最高 128000 個(gè)詞元（tokens），輸出最高 16384 個(gè)詞元。

LMSYS 的聊天機(jī)器人競(jìng)技場(chǎng)簡(jiǎn)介

Chatbot Arena 由伯克利大學(xué)主導(dǎo)團(tuán)隊(duì) LMSYS Org 近日發(fā)布了一個(gè)針對(duì)大語(yǔ)言模型的基準(zhǔn)平臺(tái) Chatbot Arena。

該平臺(tái)采用匿名、隨機(jī)的方式讓不同的大模型產(chǎn)品進(jìn)行對(duì)抗評(píng)測(cè)，基于國(guó)際象棋等競(jìng)技游戲中廣泛使用的埃洛等級(jí)分系統(tǒng)，通過(guò)用戶投票產(chǎn)生，系統(tǒng)每次會(huì)隨機(jī)選擇兩個(gè)不同的大模型機(jī)器人和用戶聊天，并讓用戶在匿名的情況下選擇哪款大模型產(chǎn)品的表現(xiàn)更好一些。

最后系統(tǒng)根據(jù)用戶的選擇判定大模型產(chǎn)品的積分，以排行榜的形式出現(xiàn)在首頁(yè)中。

chatgpt-4o-latest 最新成績(jī)

谷歌的實(shí)驗(yàn)性 Gemini 1.5 Pro 模型上周以 1297 分的成績(jī)奪得第一名，這是谷歌首次登頂 LMSYS 的聊天機(jī)器人競(jìng)技場(chǎng)。

OpenAI 找回場(chǎng)子：chatgpt-4o-latest AI 模型力壓谷歌 Gemini 1.5 Pro，多項(xiàng)跑分重奪第一

OpenAI 憑借新的 chatgpt-4o-latest 模型，以 1314 分的最高分奪回了競(jìng)技場(chǎng)第一名的寶座。

得分顯示，新版 ChatGPT-4o 在編碼、指令遵循和硬提示方面都有顯著提高，IT之家附上相關(guān)成績(jī)?nèi)缦拢?/p>

總成績(jī)：第一名
數(shù)學(xué)：#1-2
編程：第一名
艱難提示詞（Hard Prompts）：第一名
指令跟隨（Instruction Following）：第一名
長(zhǎng)提問(wèn)（Longer Query）：第一名
Multi-Turn：第一名

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

OpenAI 找回場(chǎng)子：chatgpt-4o-latest AI 模型力壓谷歌 Gemini 1.5 Pro，多項(xiàng)跑分重奪第一

chatgpt-4o-latest 簡(jiǎn)介

LMSYS 的聊天機(jī)器人競(jìng)技場(chǎng)簡(jiǎn)介

chatgpt-4o-latest 最新成績(jī)

相關(guān)文章

OpenAI 找回場(chǎng)子：chatgpt-4o-latest AI 模型力壓谷歌 Gemini 1.5 Pro，多項(xiàng)跑分重奪第一