GPT-4V 學(xué)會(huì)自動(dòng)操縱電腦,這一天終于還是到來(lái)了。
只需要給 GPT-4V 接入鼠標(biāo)和鍵盤,它就能根據(jù)瀏覽器界面上網(wǎng):
甚至還能快速摸清楚“播放音樂(lè)”的播放器網(wǎng)站和按鈕,給自己來(lái)一段 music:
是不是有點(diǎn)細(xì)思極恐了?
這是一個(gè) MIT 本科生小哥整出來(lái)的新活,名叫 GPT-4V-Act。
只需要幾個(gè)簡(jiǎn)單的工具,GPT-4V 就能學(xué)會(huì)控制你的鍵盤和鼠標(biāo),用瀏覽器上網(wǎng)發(fā)帖、買東西甚至是玩游戲。
要是用到的工具出 bug 了,GPT-4V 甚至還能意識(shí)到、并試圖解決它。
來(lái)看看這是怎么做到的。
教 GPT-4V“自動(dòng)上網(wǎng)”
GPT-4V-Act,本質(zhì)上是一個(gè)基于 Web 瀏覽器的 AI 多模態(tài)助手(Chromium Copilot)。
它可以像人類一樣用鼠標(biāo)、鍵盤和屏幕“查看”網(wǎng)頁(yè)界面,并通過(guò)網(wǎng)頁(yè)中的交互按鍵進(jìn)行下一步操作。
要實(shí)現(xiàn)這種效果,除了 GPT-4V 以外,還用到了三個(gè)工具。
一個(gè)是 UI 界面,可以讓 GPT-4V“看見”網(wǎng)頁(yè)截圖,也能讓用戶與 GPT-4V 發(fā)生交互。
這樣,GPT-4V 就能將每一步運(yùn)行思路都通過(guò)對(duì)話框的形式反映出來(lái),用戶來(lái)決定是否要繼續(xù)讓它操作。
另一個(gè)是 Set-of-Mark Prompting(SoM)工具,讓 GPT-4V 學(xué)會(huì)交互的一款工具。
這個(gè)工具由微軟發(fā)明,目的是更好地對(duì) GPT-4V 進(jìn)行提示詞工程。
相比讓 GPT-4V 直接“看圖說(shuō)話”,這個(gè)工具可以將圖片關(guān)鍵細(xì)節(jié)拆分成不同的部分,并進(jìn)行編號(hào),讓 GPT-4V 有的放矢:
對(duì)于網(wǎng)頁(yè)端也是如此,Set-of-Mark Prompting 用類似的方式讓 GPT-4V 知道從網(wǎng)頁(yè)瀏覽器的哪個(gè)部分找答案,并進(jìn)行交互。
最后,還需要用到一個(gè)自動(dòng)標(biāo)注器(JS DOM auto-labeler),可以將網(wǎng)頁(yè)端所有能交互的按鍵標(biāo)注出來(lái),讓 GPT-4V 決定要按哪個(gè)。
一套流程下來(lái),GPT-4V 不僅能準(zhǔn)確判斷圖片上的哪些內(nèi)容符合需求,還能準(zhǔn)確找到交互按鍵,并學(xué)會(huì)“自動(dòng)上網(wǎng)”。
這是個(gè)大項(xiàng)目,目前還只實(shí)現(xiàn)了部分功能,包括點(diǎn)擊、打字交互、自動(dòng)標(biāo)注等。
接下來(lái),還有其他的一些功能要實(shí)現(xiàn),例如試試 AI 打標(biāo)器(目前網(wǎng)頁(yè)端的交互還是通過(guò)通過(guò) JS 接口得知哪里能交互,不是 AI 識(shí)別的)、以及提示用戶輸入詳細(xì)信息等。
此外,作者也提到,現(xiàn)階段 GPT-4V-Act 用法上還有一些需要注意的地方。
例如,GPT-4V-Act 可能會(huì)被網(wǎng)頁(yè)打開后鋪天蓋地的彈窗小廣告給“整懵了”,然后出現(xiàn)交互 bug。
又例如,目前這種玩法可能會(huì)違反 OpenAI 的產(chǎn)品使用規(guī)定:
除非 API 允許,否則不得使用任何自動(dòng)化或編程的方法從服務(wù)中提取數(shù)據(jù)并輸出,包括抓取、網(wǎng)絡(luò)收集或網(wǎng)絡(luò)數(shù)據(jù)提取。
所以用的時(shí)候也要低調(diào)一點(diǎn)(doge)
微軟 SoM 作者也來(lái)圍觀
這個(gè)項(xiàng)目在網(wǎng)上發(fā)出后,吸引了不少人的圍觀。
像是小哥用到的微軟 Set-of-Mark Prompting 工具的作者,就發(fā)現(xiàn)了這個(gè)項(xiàng)目:
出色的工作!
還有網(wǎng)友提到,甚至可以用來(lái)讓 AI 自己讀取驗(yàn)證碼。
這個(gè)在 SoM 項(xiàng)目中提到過(guò),GPT-4V 是能成功解讀驗(yàn)證碼的(所以以后可能還真不知道是人還是機(jī)器在上網(wǎng))。
與此同時(shí),也有網(wǎng)友已經(jīng)在想象桌面流自動(dòng)化(desktop automation)的操作了。
對(duì)此作者回應(yīng)稱:
AI 自動(dòng)標(biāo)注器應(yīng)該能實(shí)現(xiàn)這個(gè),我也確實(shí)在計(jì)劃制作一個(gè)更通用的 Copilot。
不過(guò)目前 GPT-4V 還是要收費(fèi)的,有沒有其他的實(shí)現(xiàn)方法?
作者也表示,目前還沒有,但確實(shí)可能會(huì)嘗試 Fuyu-8B 或者 LLaVAR 這樣的開源模型。
免費(fèi)的自動(dòng)化桌面流 AI 助手,可以期待一波了。
參考鏈接:
[1]https://github.com/ddupont808/GPT-4V-Act
[2]https://www.reddit.com/r/MachineLearning/comments/17cy0j7/d_p_web_browsing_uibased_ai_agent_gpt4vact/
本文來(lái)自微信公眾號(hào):量子位 (ID:QbitAI),作者:蕭簫
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。