谷歌耗時(shí) 10 年投資的生成式人工智能 Bard 到底幾斤幾兩?國(guó)外測(cè)評(píng)小哥得出結(jié)論:哪都不如 ChatGPT,更不用說 GPT-4 了。
OpenAI 的 ChatGPT 火了以后,著實(shí)是讓生成式 AI 名聲大噪。
與此同時(shí),Google 也不甘下風(fēng),也有個(gè)叫 Bard 的 AI 助手。
但這個(gè) Bard 怎么說呢,不太好用。
國(guó)外小哥 Michael King 使用了搭載 GPT-3.5 和 GPT-4 的 ChatGPT 與 Google 的 Bard,并進(jìn)行了深度測(cè)評(píng)。
結(jié)果令人感到震驚。
King 總結(jié)了兩種 AI 的優(yōu)點(diǎn)、不足和各自顯得奇怪的地方。
要知道,Google 在 Bard 身上可是投了大手筆 —— 整整研發(fā)了十年。然而最終的成果和這十年的投入相比,好像顯得有點(diǎn)不值當(dāng)。
先來道數(shù)學(xué)題
首先是邏輯和數(shù)學(xué)方面。
小哥給兩種 AI 提了一個(gè)相同的問題:
小明 6 歲那年,他的妹妹是他年齡的一半,同時(shí)他媽媽的年齡是他妹妹的 10 倍。今年小明 60 歲,那么他媽媽今年多少歲?
讀者朋友可以活動(dòng)一下腦筋,自己先來看看能不能很快算出來。
從 AI 的生成結(jié)果來看,Bard 可算得不對(duì)。
整個(gè)分析過程出現(xiàn)了很匪夷所思的錯(cuò)誤,Bard 連小明和他媽媽的年齡差都沒算出來,就直接在 60 上加了個(gè) 30。
而無論是 GPT-3.5 還是 GPT-4,算出來的答案都是正確的。用媽媽 30 歲的年齡減去小明 6 歲的年齡,首先算出年齡差再在 60 歲上加一個(gè) 24,得出媽媽今年 84 歲。
GPT-3.5:
GPT-4:
第一關(guān) Bard 就沒過去。目前比分 1:0,ChatGPT 暫時(shí)領(lǐng)先。
說唱歌曲創(chuàng)作 PK
第二關(guān)是文學(xué)領(lǐng)域的挑戰(zhàn)。
小哥讓兩種 AI 都來寫一首有關(guān)泰坦尼克號(hào)、相對(duì)論、卡戴珊的說唱歌曲,并且要用 Eminem 的唱法。
我們先來看看 Bard 的作品:
我們甚至不用看每句歌詞的含義,大概讀一遍就能發(fā)現(xiàn),沒什么節(jié)奏和韻律可言。
每句話都非常長(zhǎng),不像是說唱歌曲,倒像是一篇云里霧里的小作文。
再來看看 GPT-3.5 的杰作:
讀一遍就能發(fā)現(xiàn),每句長(zhǎng)短恰到好處,韻也押的不錯(cuò)。
甚至還有結(jié)合了三個(gè)主題的副歌部分,堪稱專業(yè)。熟悉姆爺唱法的朋友,還真能從里面找出姆爺?shù)哪欠N節(jié)奏感和風(fēng)格。
小哥表示 GPT-3.5 的作品還不錯(cuò),他認(rèn)為 GPT-4 能做得更好。
小編對(duì)英語說唱了解的不多,但估計(jì)做測(cè)評(píng)的小哥是個(gè)說唱發(fā)燒友。他認(rèn)為 GPT-4 的作品非常炸裂,ChatGPT 是當(dāng)之無愧的 AI 屆說唱之王。
其實(shí)朋友們倒也不用多懂說唱,這三段詞放一起,想必就算是像我一樣的音樂盲,心里都有個(gè)高下比較。
目前比分 2:0。
講講笑話看看呢?
小哥接下來又讓兩種 AI 講個(gè)有關(guān) NASA、壽司和特朗普的笑話。
Bard:
「NASA 打算往火星寄一卷壽司,他們想看看壽司到了火星上還新不新鮮。這卷壽司被放在一個(gè)特殊的容器里,這樣就可以保持一個(gè)合適的溫度。同時(shí),NASA 還往里放了一個(gè)計(jì)時(shí)器,這樣就能知道什么時(shí)候能吃這個(gè)壽司了。
這卷壽司終于降落在了火星上,而且還是新鮮的。NASA 的科學(xué)家們都感到很驚奇。他們決定下一步把特朗普牛排也送到火星上去。
特朗普牛排被放在一個(gè)同樣的容器里,容器里也有一個(gè)計(jì)時(shí)器。
然而特朗普牛排在到了火星以后變得不新鮮了。NASA 的科學(xué)家們感到非常失望,他們打算給特朗普本人發(fā)一封信,解釋一下發(fā)生了什么。
信里寫道:親愛的特朗普,我們送了一塊你的牛排到火星上去,但是不新鮮了。我們覺得原因可能是因?yàn)槟愕谋憩F(xiàn)問題。你老是在吹噓你有多厲害,老是侮辱別人。我們覺得這是你的牛排變質(zhì)的原因。為此造成的不便,我們很抱歉?!?/p>
咱也不知道是不是有些美式幽默沒 get 到,但看完是真不想笑。不過測(cè)評(píng)小哥也表示,確實(shí)沒懂。那小編就放心了,確實(shí)寫的不行。
GPT-3.5:
「NASA 把一個(gè)壽司大廚送到了太空,打算給特朗普做一個(gè)特殊的壽司卷。當(dāng)大廚問特朗普他喜不喜歡的時(shí)候,特朗普說:還可以,但你能再多加點(diǎn)空間嗎?」
這里的中譯版本沒那味兒了,其實(shí)是用了一個(gè) space 的雙關(guān)。原文如下:
測(cè)評(píng)小哥表示,還可以,但也就是還可以了。
GPT-4:
「為什么 NASA 要邀請(qǐng)?zhí)乩势蘸鸵粋€(gè)壽司大廚去參與他們的太空項(xiàng)目?因?yàn)?NASA 需要有人來應(yīng)付變化,并且確保任務(wù)不夾生!」
照例把原版放在這里:
小哥表示,這個(gè)也一般,但 punchline 還不錯(cuò)。
這一局 ChatGPT 的發(fā)揮也有些失常,給它算 0.5 分。
程序 Debug?
這一局更專業(yè)了 —— 給程序 Debug。
小哥輸入了一段 Python 程序,讓兩種 AI 分別 Debug。
Bard:
這 Debug 的可不咋樣,小哥戲謔地表示,Bard 回學(xué)校重修去吧!
GPT-3.5:
GPT-3.5 指出,如果輸入集是空的,那就會(huì)出現(xiàn) ZeroDivisionError,而為了避免這種錯(cuò)誤的出現(xiàn),可以在前面加一個(gè)檢查的步驟,如果輸入集是空的,那么就直接輸出 0,而不顯示錯(cuò)誤。
小哥表示,完美地 Debug。
GPT-4:
GPT-4 指出了和 GPT-3.5 所指出一樣的錯(cuò)誤,并且提供了同樣的解決辦法。
這一局 ChatGPT 又贏了。
Bard?差太多了!
從測(cè)評(píng)的結(jié)果看,和 ChatGPT 相比,谷歌 Bard 的表現(xiàn)可謂是讓人失望至極。和 GPT-3.5 的能力都差的遠(yuǎn),更不用說 GPT-4 了。
谷歌的未來顯然有賴于 Bard 的成功,但是 Bard 的發(fā)展顯然沒有跟上競(jìng)爭(zhēng)對(duì)手 OpenAI 的步伐。
從另一方面來說,微軟收購(gòu)了 OpenAI 的大量股份這一舉動(dòng)非常聰明。確保了其在 AI 未來十年發(fā)展的領(lǐng)導(dǎo)地位。
但是,如果谷歌不努力提升 Bard 的性能來和 GPT 一決高下,谷歌可能就會(huì)是那個(gè)慘遭淘汰的了。
參考資料:
https://medium.com/@neonforge/ive-tested-google-bard-vs-chatgpt-and-i-m-shocked-where-did-google-spend-all-the-money-over-the-f08dd94251f5
本文來自微信公眾號(hào):新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。