IT之家 8 月 14 日消息,谷歌上周發(fā)布最強 Gemini 1.5 Pro 模型,在 LMSYS 的聊天機器人競技場(Chatbot Arena)比賽中取得第一名,而 OpenAI 迅速“找回場子”,最新 chatgpt-4o-latest 模型重奪第一。
chatgpt-4o-latest 簡介
OpenAI 公司上周發(fā)布了 gpt-4o-2024-08-06,其 API 支持結構化輸出;昨日再次發(fā)布了名為 chatgpt-4o-latest 的全新前沿模型,是 GPT-4o 的最新版本,上下文窗口輸入最高 128000 個詞元(tokens),輸出最高 16384 個詞元。
LMSYS 的聊天機器人競技場簡介
Chatbot Arena 由伯克利大學主導團隊 LMSYS Org 近日發(fā)布了一個針對大語言模型的基準平臺 Chatbot Arena。
該平臺采用匿名、隨機的方式讓不同的大模型產(chǎn)品進行對抗評測,基于國際象棋等競技游戲中廣泛使用的埃洛等級分系統(tǒng),通過用戶投票產(chǎn)生,系統(tǒng)每次會隨機選擇兩個不同的大模型機器人和用戶聊天,并讓用戶在匿名的情況下選擇哪款大模型產(chǎn)品的表現(xiàn)更好一些。
最后系統(tǒng)根據(jù)用戶的選擇判定大模型產(chǎn)品的積分,以排行榜的形式出現(xiàn)在首頁中。
chatgpt-4o-latest 最新成績
谷歌的實驗性 Gemini 1.5 Pro 模型上周以 1297 分的成績奪得第一名,這是谷歌首次登頂 LMSYS 的聊天機器人競技場。
OpenAI 憑借新的 chatgpt-4o-latest 模型,以 1314 分的最高分奪回了競技場第一名的寶座。
得分顯示,新版 ChatGPT-4o 在編碼、指令遵循和硬提示方面都有顯著提高,IT之家附上相關成績?nèi)缦拢?/p>
總成績:第一名
數(shù)學:#1-2
編程:第一名
艱難提示詞(Hard Prompts):第一名
指令跟隨(Instruction Following):第一名
長提問(Longer Query):第一名
Multi-Turn:第一名
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。