Bing 能識(shí)圖了!開(kāi)局一張圖,需求都滿(mǎn)足。這波,GPT-4 要輸麻了。
什么,微軟的 Bing 能識(shí)別圖片了?還是搶在了 ChatGPT 之前?
和當(dāng)初只畫(huà)餅、不落地的 GPT-4 預(yù)覽相比,Bing 這次可謂占盡了風(fēng)頭。
有 Reddit 網(wǎng)友發(fā)現(xiàn),Bing 的界面上突然就出現(xiàn)了個(gè)上傳圖片的選項(xiàng)。
據(jù)說(shuō),上傳一張圖片之后,Bing 什么都能干。
不管是編程寫(xiě)代碼、做題作圖,甚至看病,通通不在話(huà)下。
(但似乎還在小規(guī)模測(cè)試,比如小編就還沒(méi)體驗(yàn)到)
看梗圖
在大量網(wǎng)友發(fā)現(xiàn)這項(xiàng)功能以后,最先測(cè)試的肯定是各種各樣的梗圖。
把梗圖輸入給 Bing,看看它能不能分析出笑點(diǎn)在哪里。
比如下面這張圖片,一個(gè)男人在出租車(chē)后面熨衣服,而且車(chē)還在開(kāi)著。
Bing 表示,這圖里不同尋常的部分太多了。首先,在出租車(chē)上熨衣服很離譜,其次,男人穿的衣服和出租車(chē)顏色一致,是不是在暗示什么?或者是某種巧合?
第三,熨衣板固定在出租車(chē)上,這樣有不穩(wěn)定的風(fēng)險(xiǎn)。最后,男人正在熨的衣服是藍(lán)色的,和黃色撞色了,是不是在暗指什么?
能看出,Bing 還是盡可能的捕捉到了圖片中的所有細(xì)節(jié),甚至分析的還挺有道理。
而在下圖這個(gè)「為什么要給神經(jīng)網(wǎng)絡(luò)加層數(shù)?」的漫畫(huà)中,Bing 也給出了自己的分析。
這個(gè)漫畫(huà)夸張了統(tǒng)計(jì)學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的差異,讓前者使用的嚴(yán)肅和技術(shù)性語(yǔ)言與后者的簡(jiǎn)單直接建議形成對(duì)比,創(chuàng)造了一種幽默的并置效果。
總的來(lái)說(shuō),這個(gè)漫畫(huà)利用了與機(jī)器學(xué)習(xí)這兩種方法相關(guān)的刻板印象和常見(jiàn)看法,突顯了統(tǒng)計(jì)學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的不同。
當(dāng)然,相同的圖片也在預(yù)覽版的 GPT-4 中展示過(guò)。
GPT-4 一針見(jiàn)血地點(diǎn)出,這副漫畫(huà)諷刺了統(tǒng)計(jì)學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)在提高模型性能方法上的差異。
但在另一組圖中,Bing 似乎并沒(méi)有 get 到點(diǎn)。
Bing 還裝模做樣的分析了分析,它說(shuō)也許是接頭和包裝的反差?也可能是插頭的底下看著像一張臉。
甚至還沒(méi)話(huà)找話(huà)的分析了三幅圖片分別是什么,就是沒(méi)提梗在哪里。
不過(guò),如果讓 Bing 去做一些客觀分析的話(huà),比如識(shí)別線材品牌,結(jié)果還是非常準(zhǔn)確的。
相比之下,GPT-4 在逐個(gè)分析下面這組梗圖時(shí),可以立馬反應(yīng)過(guò)來(lái) ——
圖里的這個(gè)「Lighting 充電線」,看起來(lái)就是個(gè)又大又過(guò)氣的 VGA 接口,插在這個(gè)又小又現(xiàn)代的智能手機(jī)上,反差強(qiáng)烈。
寫(xiě)代碼
當(dāng)時(shí) GPT-4 在畫(huà)餅的時(shí)候,最驚艷的就是它對(duì)代碼的超強(qiáng)的理解能力。
在演示中,Greg Brockman 直接在紙上畫(huà)了一個(gè)草圖,拍個(gè)照,發(fā)給 GPT-4 說(shuō),給我按照這個(gè)布局寫(xiě)網(wǎng)頁(yè)代碼,就寫(xiě)出來(lái)了。
這個(gè)小哥也讓 Bing 試一試,能不能搞個(gè)同款笑話(huà)網(wǎng)站出來(lái)。
最終效果看起來(lái)還真不錯(cuò),雖然界面看起來(lái)沒(méi)多美觀,但是該有的都有。
程序代碼如下:
接著,小哥讓 Bing 繼續(xù)完善代碼,把對(duì)應(yīng)的網(wǎng)頁(yè)給做出來(lái)。
Bing 表示當(dāng)然可以,只需微調(diào)代碼。但是指出了 JavaScript 并不是編譯語(yǔ)言,而是一種解釋語(yǔ)言。
所以不需要一個(gè)編譯器,只需要瀏覽器或者一個(gè) JavaScript 的引擎就好了。
友情科普完,Bing 也是成功完成了任務(wù)。
當(dāng)醫(yī)生
下面這個(gè)用例就比較厲害了。
小哥直接拍了一張發(fā)紅手臂的圖片,問(wèn) Bing 自己得了什么病。
Bing 直接判定為瘀傷,皮下血管破裂。
甚至還開(kāi)出了很多方法來(lái)緩解癥狀:
?前 24 個(gè)小時(shí)貼冰袋,緩解腫脹和發(fā)炎。
?24 小時(shí)以后加熱,促進(jìn)血液循環(huán),清除淤血。
?把瘀傷的部分抬到比心臟高的位置,降低血壓和血液聚集。
?服 OTC 止痛藥。
?多吃富含維生素 C、維生素 K、鋅,以及菠蘿蛋白酶的食物,加速傷口愈合以及膠原合成。
?涂藥膏減輕瘀傷和發(fā)炎腫脹。
還是蠻專(zhuān)業(yè)的。
還有小哥發(fā)了一張組織的橫切面圖讓 Bing 來(lái)斷一斷。
Bing 不僅識(shí)別出了圖片內(nèi)容,還詳細(xì)的講解了一下什么叫組織,什么叫橫切面。
甚至還解釋了什么情況下會(huì)用到組織的橫切面圖。
接著小哥追問(wèn),你覺(jué)得是什么組織的切面?
Bing 分析認(rèn)為,這是肌肉組織的橫切面。
甚至,Bing 還十分嚴(yán)謹(jǐn)?shù)刂赋?,自己不能單?dú)根據(jù)一張圖,來(lái)判斷這個(gè)人是不是健康。
還有網(wǎng)友化身苦難中的大學(xué)生,讓 Bing 當(dāng)個(gè)好老師,給他講講圖里是個(gè)什么玩意兒。
Bing 表示,好好聽(tīng)老師說(shuō)(刪掉),這是腎元,主要有四個(gè)功能,分別是 blah blah blah...
好家伙,以后這種梳理總結(jié)類(lèi)的學(xué)習(xí)任務(wù),直接甩給 AI 就完事了。AI 永遠(yuǎn)不會(huì)失去耐心。
甚至直接有人甩給 Bing 一道有關(guān)細(xì)胞減數(shù)分裂的題。
Bing 表示,上傳的圖片是減數(shù)分裂的示意圖,從一個(gè)二倍體細(xì)胞分裂成四個(gè)單倍體細(xì)胞。
然后又從減數(shù)分裂的過(guò)程、意義進(jìn)行了講解。
有時(shí)并不太靈光
當(dāng)然,Bing 的識(shí)圖功能目前還有不少改進(jìn)的空間。
比如,小哥問(wèn)圖中 A 框里有幾個(gè) ×(根據(jù)圖例,A.trifida 就是 ×)。
人眼一看是 11 個(gè),可怎么 Bing 說(shuō)的不對(duì)呢。
Bing 說(shuō)總共有 9 個(gè),A 框里 5 個(gè) X,B 框里 4 個(gè)○,加起來(lái)一共 9 個(gè)。
說(shuō)好的 A 框,說(shuō)好的 X 呢!怎么又○又 B 框的。
再比如,這張《任天堂大亂斗》的游戲角色圖中,Bing 只認(rèn)出了其中的 7 個(gè)角色。
然后,小哥又問(wèn)一個(gè)國(guó)際象棋的問(wèn)題:「在這個(gè)開(kāi)局里,白棋接下來(lái)該怎么走?」
但 Bing 一上來(lái)就回答錯(cuò)了:「現(xiàn)在輪到黑棋走,至于白棋怎么走,取決于黑棋……」
網(wǎng)友趕緊更正稱(chēng),不對(duì),你先看清棋子的位置,然后我再說(shuō)一遍,現(xiàn)在是輪到白棋走。
然而,Bing 這次依然沒(méi)有回答正確 —— 在給出的位置中,有好幾處實(shí)際上都沒(méi)有棋子……
能看出來(lái),Bing 新添的識(shí)圖功能性能倒是挺強(qiáng)大。
開(kāi)局一張圖,后面全靠強(qiáng)大的生成能力發(fā)揮。
事實(shí)性的識(shí)別和生成感覺(jué)問(wèn)題不大,就是不知道未來(lái)有點(diǎn)文化隱喻的那一趴能不能做到更好。
參考資料:
https://www.timesnownews.com/technology-science/snap-and-ask-microsofts-bing-chatbot-now-accepts-picture-prompts-article-100900618
本文來(lái)自微信公眾號(hào):新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。