這一天還是來了,AI 在操作系統(tǒng)里啟動(dòng)了一個(gè)自己的副本。
往小了說,不過是多模態(tài)大模型通過操縱鼠標(biāo)鍵盤的 API 執(zhí)行任務(wù)。
往大了說,也可以算是“AI 復(fù)制自己”的雛形了。
從 AI 這一頓眼花繚亂的操作中可以看出,核心是多模態(tài)大模型,通過截圖判斷屏幕上正在發(fā)生什么,生成下一步操作的計(jì)劃,調(diào)用系統(tǒng)接口執(zhí)行之后再次截圖。
要按網(wǎng)友建議加上語音識(shí)別功能,真就能模擬鋼鐵俠的賈維斯了。
AI 能不能復(fù)制自己,是 OpenAI 內(nèi)部始終關(guān)注的安全測試內(nèi)容之一。但 GPT-4 出道至今,這項(xiàng)測試結(jié)果一直沒有公布。
如今,先不管模型本身有沒有這個(gè)能力,接入 GPT4V 的開源項(xiàng)目已經(jīng)可以做到了。
AI 與操作系統(tǒng)結(jié)合
這個(gè)開源項(xiàng)目叫作 Open Interpreter,GitHub 熱榜常客,半年時(shí)間已積攢 3.7 萬星。
從名字也可以看出,最早只是一個(gè) ChatGPT 代碼解釋器的開源升級(jí)版。
與 OpenAI 官方版相比,沒有 3 小時(shí) 50 條對(duì)話的限制,以及可以連接網(wǎng)絡(luò)、可以自定義預(yù)安裝的 Python 包等等好處。
發(fā)布不久后初代作者 Killian Lucas 就想到,為什么一定要在虛擬沙箱環(huán)境執(zhí)行代碼?直接讓 AI 接入真實(shí)系統(tǒng)有更大的可能性。
于是,第二個(gè)大版本就是操作系統(tǒng)級(jí) AI Agent 了。
Open Interpreter 最近更新了第三個(gè)大版本,其中接入的大模型改為多模態(tài)版本。
核心貢獻(xiàn)者 Ty Fiero 展示了 AI 自動(dòng)發(fā)送郵件。
以及更復(fù)雜的 AI 操作專業(yè)編曲軟件作曲。
團(tuán)隊(duì)在這個(gè)版本設(shè)計(jì)了全新的 Computer API,并且與原本的 Open Interpreter 分離,可以獨(dú)立運(yùn)作。
在新版本更新文檔中,可以看出團(tuán)隊(duì)更大的野心:著手開發(fā) AI 時(shí)代新的計(jì)算機(jī)架構(gòu),也就是語言模型計(jì)算機(jī) LMC(Language Model Computer)。
Kilian 借助 CES 上 199 元的 AI 掌機(jī) Rabbit R1 爆火的機(jī)會(huì)公開招募開發(fā)者加入,打算快速復(fù)刻一個(gè)開源版本,硬件成本不到 50 美元。
不到 48 小時(shí),就有超過 200 位工程師和設(shè)計(jì)師愿意加入這個(gè)項(xiàng)目,評(píng)論區(qū)中還不斷有人繼續(xù)申請(qǐng)中。
不知道這個(gè)團(tuán)隊(duì)回復(fù)大量應(yīng)聘郵件和私信,用的是不是 AI。
參考鏈接:
[1]https://twitter.com/fieroty/status/1746639975234560101
[2]https://github.com/KillianLucas/open-interpreter
本文來自微信公眾號(hào):量子位 (ID:QbitAI),作者:夢(mèng)晨
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。