首個 AI 程序員 Devin,現(xiàn)身明星創(chuàng)業(yè)公司內部群。
為解決一個技術問題,Devin 借用了其創(chuàng)造者的賬號,與客戶公司的 CTO 交流,并根據(jù)回復調整了代碼方案。
對話之專業(yè),圍觀者看了直呼這個世界太瘋狂。
事情發(fā)生在辦公軟件 Slack,截圖中的 akshat 是 AI 基礎設施創(chuàng)業(yè)公司 Modal Labs 的 CTO Akshat Bubna。
Modal Labs 也是 Devin 開發(fā)商 Cognition 的首批客戶之一。
此時 Devin 正披著他的創(chuàng)造者之一、IOI 金牌得主 Steven Hao 的馬甲。
對話的開始,AI 程序員 Devin 正在詢問有關 Modal Lab 平臺的密鑰的生命周期問題,特別是密鑰更新后傳播到正在運行的應用程序所需的時間。
Devin 表示自己已經(jīng)查閱了文檔,包括密鑰和環(huán)境變量指南、CLI 命令參考、API 參考以及容器生命周期鉤子和參數(shù),但依舊沒有找到關于密鑰傳播時間的明確信息。
Devin 詢問了更新的密鑰通常需要多長時間才能被運行中的應用程序使用,因為這對于他們的運營至關重要,了解這一點將有助于管理他們的部署流程。
人類 CTO 解釋說,當密鑰更新時,他們不會使已經(jīng)運行的 Modal 容器失效,但是新啟動的容器將會讀取更新后的值。
Devin 對此表示感謝,并決定暫時采用手動方法來管理 Modal 中的密鑰,即在需要時調用 modal deploy 命令來觸發(fā)相關應用程序容器的重啟。
看完整個過程后,同樣是 AI 創(chuàng)業(yè)者的 Raunak Chowdhuri 評價到:
發(fā)現(xiàn)問題、創(chuàng)建工單、調整代碼,最好的人類開發(fā)者就是這么工作的。
Devin 更多實測結果
拿到 Devin 早期測試資格的人和公司并不多,不過還是陸陸續(xù)續(xù)有人曬出實測結果。
熱衷 AI 的沃頓商學院教授 Ethan Molick 試過后,認為其新穎的實時交互方式是最值得關注的。
您可以隨時與它“交談”,就像與人交談一樣,它會在后臺不斷地執(zhí)行和調試您的想法。
在測試中,Ethan Mollick 要求 Devin 開發(fā)一個解釋“創(chuàng)業(yè)公司融資中的股權稀釋”的網(wǎng)站。
不過他透露,AI 還無法在沒有任何幫助的情況下,自主且無差錯地完成這項工作。
要想把一個重大項目交給人工智能來完成,還有很長的路要走,但這仍然是一個令人著迷的開始。
另一位曬出測試過程的創(chuàng)業(yè)者 Mckay Wrigley 更激動一些。
在他曬出的 27 分鐘測試中,只發(fā)了一個 GitHub 連接,讓 Devin 部署來自開源項目的代碼。
Devin 自主把任務拆解成一系列子步驟,并一步步開始執(zhí)行。
執(zhí)行過程中,Devin 在安裝 Supabase 數(shù)據(jù)庫時遇到了障礙,自己打開了對應的 Github 倉庫開始查閱文檔……
從后續(xù)終端反饋中可以看出,Devin 查到了運行 Supabase 所需的各種端口和密匙都應該填什么。
(裝過的都知道,雀食挺麻煩……)
與此同時,Devin 還在根據(jù)實際情況不斷修改自己的后續(xù)計劃。
一段時間過后,一個本地的聊天機器人程序就跑起來了。
測試一段時間后 Mckay Wrigley 認為,Devin 已經(jīng)可以算 Agent 的 ChatGPT 時刻。
復現(xiàn) Devin 計劃 ing
Devin 這邊大伙還在接連測試,另一邊開源“復現(xiàn)”方案也在進行中……
這不,GitHub 三萬 Star 項目 MetaGPT 就上新了“開源版 Devin”。
名為數(shù)據(jù)解釋器(Data Interpreter):
同 Devin 一樣,Data Interpreter 也能實現(xiàn)自主編程,能迭代式觀察數(shù)據(jù),預測分析病情進展、機器運行狀態(tài);還能構建機器學習模型、進行數(shù)學推理、自動回復電子郵件、仿寫網(wǎng)站……
比如從英偉達股價數(shù)據(jù)中分析收盤價格趨勢:
分析數(shù)據(jù)預測葡萄酒質量:
除此以外,阿里 Qwen 成員 Binyan Hui 等人開啟了 OpenDevin 項目,剛剛起步已獲得 1.2k Star。
Binyan Hui 發(fā)推文表示,已有一個初步的路線圖和一群優(yōu)秀的人在努力工作,在很短的時間內就完成了前端原型。
同時項目團隊也在招新成員:
另外,還一個名為 Maisa AI 的團隊推出了 Maisa KPU(Knowledge Processing Unit),被網(wǎng)友認為與 Devin 有一些競爭。
目前 Maisa KPU 處于測試階段,它可以解決復雜問題和推理,團隊發(fā)布的基準測試結果如下:
根據(jù) demo 展示,KPU 可以成為“智能客服”,在客戶沒有正確寫好訂單號的情況下,幫助客戶解決訂單未送達的問題:
Devin 基準測試技術報告發(fā)布
最近,Devin 創(chuàng)始團隊 Cognition 還發(fā)布關于 SWE-bench 測試的技術報告。除了之前已公布的測試結果之外,團隊還透露了一些新消息。
比如,Cognition 的目標之一是讓 Devin 這個專門從事軟件開發(fā)的 AI 智能體能夠成功地為大型、復雜的代碼庫貢獻代碼。
選擇在 SWE-bench 上端到端運行智能體,也是考慮了它更接近現(xiàn)實世界的軟件開發(fā)。
此外,研發(fā)團隊還透露,為了防止 Devin 在測試中作弊,比如查找外部的 pull requests 信息,測試已做相關設置,確保 Devin 無法訪問相關信息,并且在此過程中也已人工手動檢查了 Devin 運行情況。
最后團隊強調 Devin 仍處于起步階段,還有很大改進空間:
更多細節(jié)感興趣的家人們可查看報告詳情。
Devin 發(fā)布不到一周,網(wǎng)友們的討論已十分熱烈。比如,這位大兄弟表示自己一年前擔心的事兒終究還是發(fā)生了。以后 Stack Overflow 上都是各種 Devin 在提問,人,就只能被擠出去(Stack Overflow 危!?。。?/p>
有網(wǎng)友回應(手動狗頭):
它們可以互相回答問題。
還有網(wǎng)友發(fā)現(xiàn) Devin 背后團隊 Cognition 正在招全職軟件工程師,于是緩緩打出一個問號:
Devin 不是應該填補這些職位空缺來為他們省錢嗎?
最后,若 Devin 公開你會想用它干點啥?
參考鏈接:
[1]https://www.cognition-labs.com/post/swe-bench-technical-report
[2]https://x.com/raunakdoesdev/status/1769066769786757375
[3]https://twitter.com/emollick/status/1768742585122558063
[4]https://x.com/mckaywrigley/status/1767985840448516343
[5]https://x.com/maisaAI_/status/1768657114669429103?s=20
本文來自微信公眾號:量子位 (ID:QbitAI),作者:夢晨 西風
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。