SearchGPT 發(fā)布剛過兩天,已有人灰度測試到了。今天,網(wǎng)友 Kesku 自制的 demo 全網(wǎng)刷屏,SearchGPT 結果輸出如此神速,讓所有人為之震驚。
當詢問 Porter Robinson 出了新唱片嗎?只見,SearchGPT 眨眼功夫之間,即刻給出了答案「Smile」,最后還附上了鏈接。
再來看移動版本的回答速度,回答延遲幾乎為 0。
評論區(qū)下方,震驚體鋪屏。
但另一方面,OpenAI 當天放出的官方演示,被外媒《大西洋月刊》曝出其中的問題。在回答「8 月在北卡羅來納 Boone 舉辦的音樂節(jié)」的問題時,SearchGPT 竟弄錯時間,出現(xiàn)了幻覺。
說好的,要取代谷歌呢?
全網(wǎng)一手實測來了
Kesku 自己測試的另一個 demo,呈現(xiàn)了 SearchGPT 的小部件。她發(fā)現(xiàn)的一個現(xiàn)象是,SearchGPT 傾向于強烈關注搜索結果?!赣袝r就需要明確告訴它,自己想要做什么,而不是想從網(wǎng)上得到什么」。
比如詢問它倫敦天氣,SearchGPT 先給出了未來七天的天氣預報。
在倫敦野餐的最佳時間和地點有什么,類似小部件的形式給出了幾個備選項。
Kesku 還在移動端測試了一些例子。
查詢英偉達股票,會給出英偉達股票整體的可視化圖,隨后給出了一些分析。所有股票信息都被無縫集成在頁面中。
輸入一首歌名「Never Gonna Give You Up」,然后直接給出了 YouTube 歌曲視頻,不用跳轉(zhuǎn)到其他網(wǎng)頁,在一個頁面就可以聽歌、看視頻。
除了搜索功能,網(wǎng)友還樂此不疲地進行「人性化測試」——「你怎么樣」?
「作為一個 AI 語言模型,我沒有感情,但我在這里并隨時準備幫助你解答問題。今天我能為你提供什么幫助」?
「給我講一個笑話」
一個英語世界的經(jīng)典雙關梗就此出現(xiàn) ——「科學家不信任原子。為什么科學家不信任原子?因為它們構成了一切!」
網(wǎng)友現(xiàn)場出題
眼饞的網(wǎng)友們,紛紛在評論區(qū)出題,讓帖主幫忙測試。
第一位網(wǎng)友問道,「它支持地區(qū)和新聞嗎,比如來自 TestingCatlog 的最新新聞」。
Kesku 測試后表示,「它可以通過 IP 地址或精確位置為你提供本地信息(后者默認是關閉的,可以在設置中選擇開啟)—— 比如『我附近的電影院』這樣的查詢效果很好」。
「幫忙試一下其智能體搜索的解釋能力」。
SearchGPT 在給出關于高帶寬存儲器的解釋中,藍色標出的內(nèi)容,是參考解釋。
你能嘗試搜索一些付費墻后面的文章嗎?那些最近與 OpenAI 簽署了合作伙伴關系的文章。
Kesku 給出了一篇文章的內(nèi)容,不過貌似還是不能越過付費內(nèi)容,僅是給出了文章的總結。
更細節(jié)的內(nèi)容,依舊無法看到。
你能嘗試搜索「Yandex 月活躍用戶數(shù)」嗎?
我想看看,當它找不到我想要的確切答案時,它是否會承認自己找到了日活躍用戶數(shù)(DAU),而不是月活躍用戶數(shù)(MAU),還是會像 copilot 那樣裝糊涂,只是復制粘貼整個搜索結果而忽視實際查詢。
Kesku 搜索后的結果如下所示:顯然,根據(jù)提問者問題,SearchGPT 給出了回答。
「與 Perplexity 相比如何」?
Kesku 稱暫時還未測試復雜的任務,不過非常喜歡目前測出的結果。
在下面提示中,她直接問道「誰是 Kesku」這么小眾的問題。沒想到,SearchGPT 給出了正確的解答,Perplexity 卻回答錯誤了。
有網(wǎng)友對此評價道,「很酷的演示!也許 SearchGPT 能在本地搜索領域帶來一些變革?它能幫助你在現(xiàn)實世界中完成事情。從外觀來看,它有很好的數(shù)據(jù)源、簡潔的小部件,而且速度超快。不知道與谷歌相比,他們能把每次查詢的成本降低到多少」?
揭秘 SearchGPT 搜索機制
科技媒體 TestingCatolog 也率先進行了內(nèi)測,并揭開了 SearchGPT 搜索機制的一角。
與當前 ChatGPT 提供的通用 Bing 搜索功能不同,SearchGPT 更擅長提供實時信息。
雖然仍舊依賴 Bing 的索引,但 SearchGPT 將會有自己的網(wǎng)絡爬蟲(類似 Perplexity),用于動態(tài)獲取實時數(shù)據(jù),從而克服 Bing 速度較慢的問題。
甚至,TestingCatalog 還挖出了 SearchGPT 的源代碼,并在評論區(qū)信誓旦旦地表示「絕對準確,我有內(nèi)部人士。」
源代碼不僅露出了 Bing 的接口,而且可以發(fā)現(xiàn),搜索結果由多模態(tài)模型提供支持。雖然看不出其中具體的處理流程,但調(diào)用的模型應該具有自動理解圖像的功能。
官方演示大翻車,OpenAI 慘遭打臉
就在網(wǎng)友們興致勃勃地試用時,《大西洋月刊》卻站出來潑了一盆冷水 ——SearchGPT 在官方 demo 中有明顯的搜索結果錯誤。
用戶給出的搜索問題是「8 月在北卡羅來納 Boone 舉辦的音樂節(jié)」。
這個問題其實很難體現(xiàn) SearchGPT 相對于傳統(tǒng)搜索引擎的優(yōu)勢。同樣的問題如果拋給谷歌搜索,也能給出相差無幾的結果。
比如 SearchGPT 放在首行的「阿巴拉契亞夏季節(jié)」(An Appalachian Summer Festival),也同樣是谷歌搜索的第二位結果。
但尷尬的是,標題下方的 AI 摘要把一個關鍵信息弄錯了 —— 經(jīng)主辦方確認,音樂節(jié)舉辦日期為 6 月 29 日~7 月 27 日。
如果你按照 SearchGPT 給出的信息去買票,將一無所獲 ——7 月 29 日~8 月 16 日恰好是售票處正式關閉的時段。
OpenAI 發(fā)言人 Kayla Wood 已經(jīng)向《大西洋月刊》承認了這個錯誤,并表示「這僅是初始的原型,我們將不斷改進。」
這個錯誤讓人不禁想起 Bard 曾經(jīng)造成的慘劇。
2023 年 2 月,谷歌推出了這個聊天機器人產(chǎn)品以對抗 ChatGPT,但首次亮相就出現(xiàn)了事實性錯誤,導致 Alphabet 股價當天暴跌 9%,市值瞬間蒸發(fā) 1000 億美元。
Bard 稱 James Webb 太空望遠鏡拍攝了系外行星的第一張照片,但實際上這個功績屬于歐洲南部天文臺的 VLT
但好在,OpenAI 沒有股價可跌,而且僅開放內(nèi)測的做法也是相當謹慎。畢竟有谷歌的前車之鑒,可以預料到,LLM 這種錯誤幾乎是無法避免的。
即使 OpenAI 能夠找到方法大幅減少 SearchGPT 的幻覺,但面對龐大的訪問量也是「杯水車薪」。
假設幻覺率僅為 1%(這個比率很難達到),按照谷歌的規(guī)模,也會導致每天產(chǎn)生數(shù)千萬個錯誤答案。
更何況,我們目前還沒有發(fā)現(xiàn)足夠可靠且有效的方法,來消除 LLM 的廢話和幻覺。
而且,Andrej Karpathy 大佬曾經(jīng)在推特上表達過這樣的觀點:「幻覺并不是 bug,而是 LLM 最大的特點?!?/p>
Karpathy 將 LLM 比喻為「夢想機器」:我們用 prompt 引導模型「做夢」,再加上對訓練文檔的模糊記憶,就得到了生成結果。
雖然大多數(shù)時候生成結果是有用的,但既然是「夢境」就有可能失控。當 LLM 做夢進入有事實錯誤的領域時,我們就會給它貼上「幻覺」的標簽。
這看起來是個 bug,但 LLM 只是做了它一直在做的事情。
這種機制和傳統(tǒng)的搜索引擎完全不同。后者接收提示后僅僅是逐字返回數(shù)據(jù)庫中最相似的文檔,因此你可以說它有「創(chuàng)造性問題」,因為搜索引擎永遠不可能創(chuàng)造新的回應。
根據(jù) Karpathy 的說法,我們就很難指望由當前 LLM 驅(qū)動的 AI 搜索能生成 100% 真實準確的結果。
那么這場搜索引擎的變革會怎樣展開?LLM 的「夢境創(chuàng)意」和傳統(tǒng)搜索引擎的真實可靠,究竟是共存下去,還是會「你死我亡」?
參考資料:
https://x.com/ai_for_success/status/1817199693275050018
https://www.theatlantic.com/technology/archive/2024/07/searchgpt-openai-error/679248/
https://x.com/testingcatalog/status/1816778176141336757
https://www.testingcatalog.com/early-access-to-searchgpt-openais-ai-powered-search-feature/
本文來自微信公眾號:微信公眾號(ID:null),作者:新智元
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。