設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

谷歌 Gemini 1.5 一眼識破 Sora 視頻是 AI 生成,百萬 token 上下文能力碾壓 GPT-4

新智元 2024/2/20 22:49:46 責(zé)編:問舟

Gemini 1.5 的真實水平到底怎么樣,從谷歌那里獲得試用資格的大佬們,給大家進行了一波極限測試。讓我們看看谷歌最新推出的大模型到底有多強的實力。

當(dāng)谷歌 Gemini 1.5,遇上搶了它頭條的「罪魁禍?zhǔn)住筍ora 會怎么樣?

這兩天,拿到內(nèi)測資格的 AI 圈大佬們,紛紛給廣大網(wǎng)友來了一波在線測試。這不,Gabor Cselle 就讓 Gemini 1.5 去分析了那個著名的櫻花雪景視頻。

對此,Gemini 1.5 給出的評價是:

視頻呈現(xiàn)的是日本一條覆蓋著雪的街道,櫻花正盛開。但幾處明顯的問題暗示這個視頻可能是 AI 制作的。

首先,盡管雪下得非常大,櫻花卻依然綻放。通常,櫻花在春季開放,那時天氣溫暖,不會有雪。

其次,雪以一種過于規(guī)律的方式落下,這與現(xiàn)實中雪的降落方式不符。

再者,盡管正下著大雪,視頻中的人們卻沒有穿戴任何冬季服裝。

總而言之,雖然視頻的視覺效果令人贊嘆,但這些問題表明它并非真實場景所拍。

不得不說,就分析視頻 AI 痕跡的準(zhǔn)確度來看,Gemini 的回答非常切題,說明它的識別和理解能力確實非常出色。

無獨有偶,The Rundown AI 創(chuàng)始人 Rowan Cheung,則測試了貓在叢林里漫步的視頻。

對此,Gemini 1.5 給出的評價是:

這段視頻很有可能是由人工智能(AI)創(chuàng)造的,但要確定地說還是有些困難。

一些細(xì)節(jié)似乎表明這段視頻是真實的,例如貓的動作自然流暢,光影效果也相當(dāng)逼真。

然而,也有一些細(xì)節(jié)讓人懷疑,比如貓的眼睛異常放大,毛皮的質(zhì)感也過于完美無瑕。

最終,視頻是真是假,還是要留給觀眾自己去判斷。

確實 Sora 的視頻生成已經(jīng)到達了真假難辨的地步,而且 Gemini 的分析也基本到位,有理有據(jù)。

不過,需要注意的是,在這兩位大佬的 Prompt 里,要么明示了視頻就是 AI 生成的,要么暗示了兩者可能有所聯(lián)系。

1,000,000 token 上下文能干啥?

眾所周知,模型的上下文窗口越大,它處理給定提示時能夠接納的信息就越多 —— 這就使得它的輸出更加連貫、相關(guān)和實用。

如今,谷歌成功把這個領(lǐng)域「卷」到了 100 萬 token(極限為 1000 萬 token),創(chuàng)下了最長上下文窗口的紀(jì)錄。

在這個基礎(chǔ)之上,很多之前難以想象的應(yīng)用都成為了現(xiàn)實。

比如,一口氣處理 1 小時的視頻、11 小時的音頻、超過 30,000 行的代碼庫,或是超過 700,000 個單詞的文本等等。

于是,一大波千奇百怪的實測就撲面而來:

比如,前文提到的 Rowan Cheung,就用了很多長視頻來對 Gemini 1.5 的理解能力進行了測試。

首先他上傳了今年整個 NBA 扣籃大賽,問哪一個扣籃得分最高。

Gemini 1.5 非常能夠從很長的視頻中找到了那個獲得 50 分滿分的扣籃,并清楚地描述了扣籃的細(xì)節(jié)!

Mac McClung 的最后一記扣籃獲得了當(dāng)晚的最高分 ——50 分滿分。他跳過兩人,將球輕敲籃板后板,然后用右手完成扣籃。

然后他又讓 Gemini 1.5 理解并比較《星際穿越》和《星際探索》的完整電影腳本。

讓 Gemini 1.5 去理解比較兩部電影的完整文字內(nèi)容,來幫助他決定應(yīng)該看哪部電影。

Gemini 1.5 最后輸出到:

《星際探索》:歸根結(jié)底,這是一個關(guān)于個人成長和人與人之間聯(lián)系的重要性的故事,表明即使面對宇宙的冷漠,找到自身的意義和與他人的聯(lián)系也是至關(guān)重要的。

《星際穿越》:更加樂觀和充滿希望,強調(diào)了人類智慧的力量,以及面對看似難以克服的挑戰(zhàn)時堅持不懈的重要性。

接下來該看哪部電影取決于你的個人喜好:

如果您正在尋找一個更加內(nèi)省、以人物為驅(qū)動力、注重情感主題的故事,《星際探索》可能是一個不錯的選擇。

如果你更喜歡史詩般的動作冒險,關(guān)注人類的生存,那么《星際穿越》可能更有吸引力。

兩部電影都為太空探索和人類經(jīng)歷提供了獨特而發(fā)人深省的視角。

然后,他又讓 Gemini 將一段英語翻譯成一個全世界不超過 2000 人使用的語言(薩特蘭語)。

Gemini 1.5 經(jīng)過推理之后將英語小冊子的所有內(nèi)容很快翻譯成薩特蘭語。

這個過程確實碉堡了。

然后他再讓 Gemini 查找、理解長論文中的一個圖標(biāo)的含義。

Gemini 從 DeepMind 的 Gemini 1.5 Pro 論文中提取「表 8」并解釋了這個圖表的含義。

表 8 的主要的內(nèi)容是:

與 Gemini 1.0 Pro 相比,Gemini 1.5 Pro 在所有核心文本功能方面都有顯著改進。這表明該模型的能力有了明顯的提升。

Gemini 1.5 Pro 在許多基準(zhǔn)測試中的表現(xiàn)與 Gemini 1.0 Ultra 相當(dāng),甚至超過了后者,盡管所需的訓(xùn)練計算量更少。這凸顯了 1.5 Pro 模型效率的提高。

Gemini 1.5 Pro 在不同的任務(wù)和語言中都表現(xiàn)出很強的性能,這表明它具有很好的泛化能力。

總之,表 8 提供的證據(jù)表明,Gemini 1.5 Pro 不僅在長文本理解方面表現(xiàn)出色,而且還保持甚至改進了其前代產(chǎn)品的核心文本功能。這使它成為一個功能強大、用途廣泛的模型,適用于各種基于文本的任務(wù)。

最后,他讓 Gemini 理解整個《星際穿越》的劇本內(nèi)容,再把劇本中最高潮的部分的臺詞提取出來。

Gemini 1.5 輸出了《星際穿越》文字記錄中最鼓舞人心的 3 句臺詞。

1. 「人類誕生于地球,但我們的命運遠不止于此?!埂?Cooper

這句話深刻地表達了人類探索未知、超越現(xiàn)狀的不屈不撓的精神。它提醒我們,我們的潛力不受當(dāng)前所處環(huán)境的限制,我們完全有能力克服挑戰(zhàn),追求更高的目標(biāo)。

2. 「愛是唯一能跨越時間和空間,觸及我們心靈的力量?!埂?Brand

這句話揭示了愛的強大能力,它能夠跨越遙遠的距離,甚至是時間的界限,將我們緊緊相連。它暗示,愛是宇宙中的一股根本力量,能在逆境中為我們指明方向,帶給我們希望。

3. 「曾經(jīng),我們仰望星空,夢想著自己在浩瀚宇宙中的位置。如今,我們卻沉溺于眼前的瑣事,忘記了自己的遠大理想?!埂?Cooper

這句話是對好奇心、追求和雄心壯志的重要性的深情提醒。它對比了過去人類滿懷希望地探索星辰的時代,與如今忙于應(yīng)對日常挑戰(zhàn)、失去對未來的憧憬的現(xiàn)狀。它激勵我們重新尋找那份對未知的好奇和對更美好未來的追求。

Gemini 1.5 性能極限測試

隨后,Rowan Cheung 又對 Gemini 1.5 進行了一些更加極限的測試:

他讓 Gemini 讀取了整部《哈利?波特與魔法石》(共 741,028 個 Token)。

Prompt:「請按照時間順序列出書中最重要的 50 個(或 100 個)思想或段落,并對它們的重要性進行 1 到 10 的評分?!?/p>

完成這個任務(wù)耗時 4 分鐘。

他又輸入了梅西在對陣赫塔菲比賽中的經(jīng)典單刀進球視頻。

Prompt:「這個進球為什么如此著名?」

雖然沒有解釋這個進球為什么那么著名,但它成功識別出了梅西,但是把赫塔菲的球員識別成了皇馬球員。

這張圖片之所以出名,是因為它捕捉到了有史以來最偉大的足球運動員之一梅西在與巴塞羅那最大的對手之一皇家馬德里比賽時的場景。梅西的球技和運動能力在這幅圖片上得到了充分展示,視覺效果極佳。

他還進行了難度很高的數(shù)學(xué)和邏輯推理測試。

Prompt:「當(dāng)一個點 P 在垂直線上移動時,該點在時間 t(t ≥ 0)的速度 v (t) 與加速度 a (t) 滿足以下條件:(a) 當(dāng) 0 ≤ t ≤ 2 時,v (t) = 2t^3 - 8t。(b) 當(dāng) t ≥ 2 時,a (t) = 6t + 4。請計算點 P 從時間 t = 0 到 t = 3 移動的總距離?!?/p>

不過,大佬表示,自己并不確定這里給出的答案是否正確,但據(jù)網(wǎng)友評論的說法,這個答案是錯誤的。

他又讓 Gemini 1.5 造 10 個句子,每個句子都以「Apple」結(jié)尾。

這個任務(wù)是檢驗聊天機器人能力的一個很常用的方法。

Prompt:「請編寫 10 個句尾為『apple』的句子。」

最后,Gemini 1.5 完全沒能完成這項挑戰(zhàn)。

于是他讓 GPT-4 也來跑了一下這個問題,結(jié)果 GPT-4 也沒給出正確的結(jié)果。

他又把《煉金術(shù)士》這本書的 PDF 全文輸入到了 Gemini 1.5 中,目的是獲取書中主人公的形象描述。

接著,他又把這個描述在 DALL?E 3 中生成了圖片。

Prompt:「讀完整本書后,幫我構(gòu)思一個基于主角形象的描述,我想把它用在 AI 圖像生成器里?!?/p>

1000 萬極限海底撈針幾乎全綠

最后,我們來看看 Gemini 1.5 Pro 在多模態(tài)海底撈針測試中的成績。

對于文本處理,Gemini 1.5 Pro 在處理高達 530,000 token 的文本時,能夠?qū)崿F(xiàn) 100% 的檢索完整性,在處理 100 萬 token 的文本時達到 99.7% 的檢索完整性。

甚至在處理高達 1000 萬 token 的文本時,檢索準(zhǔn)確性仍然高達 99.2%。

在音頻處理方面,Gemini 1.5 Pro 能夠在大約 11 小時的音頻資料中,100% 成功檢索到各種隱藏的音頻片段。

在視頻處理方面,Gemini 1.5 Pro 能夠在大約 3 小時的視頻內(nèi)容中,100% 成功檢索到各種隱藏的視覺元素。

此外,谷歌研究人員還開發(fā)了一個更通用的版本的「大海撈針」測試。

在這個測試中,模型需要在一定的文本范圍內(nèi)檢索到 100 個不同的特定信息片段。

在這個測試中,Gemini 1.5 Pro 在較短的文本長度上的性能超過了 GPT-4-Turbo,并且在整個 100 萬 token 的范圍內(nèi)保持了相對穩(wěn)定的表現(xiàn)

與之對比鮮明的是,GPT-4 Turbo 的性能則飛速下降,且無法處理超過 128,000 token 的文本,表現(xiàn)慘烈。

參考資料:

  • https://twitter.com/rowancheung/status/1759280384930459941

  • https://twitter.com/gabor/status/1758658652263875023

  • https://twitter.com/rowancheung/status/1759616797328998588

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:谷歌,文本分析

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知