IT之家 12 月 9 日消息,據(jù)彭博社、Tom's Hardware 等外媒當(dāng)?shù)貢r間周五報道,谷歌發(fā)言人在采訪中承認(rèn),前段時間谷歌發(fā)布的大語言模型 Gemini 演示視頻并非實時錄制。
乍看之下,這個一鏡到底的視頻中,Gemini 模型可發(fā)現(xiàn)藏在指定塑料杯內(nèi)的紙團(tuán),或者看出一張“連點成線”的圖片畫的是螃蟹。但是,谷歌發(fā)言人告訴彭博社,這段演示視頻是利用鏡頭中的靜止圖像幀和文字提示“拼湊”而成的,Gemini 只能對輸入的提示和靜態(tài)圖像做出反應(yīng)。同樣,視頻中用戶與 Gemini 的語音互動也由后期配音完成。
至于視頻中的人物說話、繪畫、展示物品乃至魔術(shù),似乎也只是為了演示視頻而特意安排的。在谷歌官方 YouTube 頻道中,谷歌也添加了描述稱“為了演示的目的,延遲已經(jīng)減少,Gemini 的輸出也縮短了,以求簡潔”。這意味著 Gemini 每次響應(yīng)所需的時間實際上要長于視頻的演示。
此外,谷歌 DeepMind 研究副總裁兼深度學(xué)習(xí)負(fù)責(zé)人 Oriol Vinyals 也對這段視頻做進(jìn)一步解釋:這段視頻展示的是使用 Gemini 構(gòu)建的多模態(tài)用戶體驗“可能的樣子”,是為了激發(fā)開發(fā)人員的靈感。其稱,視頻中的所有用戶提示和輸出都是真實的,為簡潔起見進(jìn)行了縮短。而且,視頻中展示的模型為 Gemini Ultra。
據(jù)IT之家此前報道,谷歌曾聲稱 Gemini Ultra 的性能在 32 個廣泛使用的學(xué)術(shù)基準(zhǔn)測試中有 30 個都表現(xiàn)出了超越當(dāng)前時代的“先進(jìn)結(jié)果”,而這些基準(zhǔn)測試也是當(dāng)前 LLM 領(lǐng)域最常用、最泛用的測試。
其中,它以 90.0% 的得分成為第一個在 MMLU(大規(guī)模多任務(wù)語言理解)上超越人類專家的模型(該測試結(jié)合了數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)和倫理等 57 個學(xué)科)。
Gemini Ultra 還在新的 MMMU 基準(zhǔn)測試上表現(xiàn)出了 59.4% 的領(lǐng)先級性能,該測試涵蓋了“需要深思熟慮的”不同領(lǐng)域的多模態(tài)任務(wù)。
明年初,谷歌還將推出全新升級的 Bard Advanced,讓用戶可以更好地體驗到其最好的模型和功能,也就是 Gemini Ultra。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。