IT之家 1 月 2 日消息,清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)于 2024 年 12 月 24 日發(fā)布論文,介紹推出 AutoDroid-V2 AI 模型,在移動(dòng)設(shè)備上利用小語(yǔ)言模型,顯著提升了自然語(yǔ)言控制的自動(dòng)化程度。
該系統(tǒng)采用基于腳本的方法,利用設(shè)備端小型語(yǔ)言模型(SLM)的編碼能力,高效執(zhí)行用戶指令。相比依賴云端大型語(yǔ)言模型(LLM)的傳統(tǒng)方法,AutoDroid-V2 在效率、隱私和安全性方面均有顯著優(yōu)勢(shì)。
項(xiàng)目背景
大型語(yǔ)言模型(LLMs)和視覺(jué)語(yǔ)言模型(VLM)通過(guò)自然語(yǔ)言命令,徹底改變了移動(dòng)設(shè)備控制的自動(dòng)化,為復(fù)雜的用戶任務(wù)提供了解決方案。
自動(dòng)化控制設(shè)備主流采用“逐步 GUI 智能體”(Step-wise GUI agents)方式,通過(guò)在每個(gè) GUI 狀態(tài)查詢,LLM 進(jìn)行動(dòng)態(tài)決策和反思、持續(xù)處理用戶的任務(wù),并觀察 GUI 狀態(tài)直至完成來(lái)進(jìn)行操作。
但這種方式嚴(yán)重依賴基于云端的模型,在分享個(gè)人 GUI 頁(yè)面時(shí),還存在隱私和安全風(fēng)險(xiǎn),此外還存在大量的用戶端流量消耗以及高昂的服務(wù)器端集中服務(wù)成本等嚴(yán)重問(wèn)題,阻礙大規(guī)模部署 GUI 智能體。
項(xiàng)目簡(jiǎn)介
不同于傳統(tǒng)的逐步操作,AutoDroid-V2 根據(jù)用戶指令生成多步驟腳本,一次性執(zhí)行多個(gè) GUI 操作,大幅減少了查詢頻率和資源消耗。
利用設(shè)備上的小型語(yǔ)言模型進(jìn)行腳本生成和執(zhí)行,避免了對(duì)強(qiáng)大云端模型的依賴,有效保護(hù)了用戶隱私和數(shù)據(jù)安全,并降低了服務(wù)器端成本。
該模型在離線階段會(huì)構(gòu)建應(yīng)用程序文檔,包含 AI 引導(dǎo)的 GUI 狀態(tài)壓縮、元素 XPath 自動(dòng)生成和 GUI 依賴分析,為腳本生成奠定基礎(chǔ)。
此外用戶提交任務(wù)請(qǐng)求后,本地 LLM 生成多步驟腳本,由特定域解釋器執(zhí)行,確??煽扛咝У倪\(yùn)行。
性能
基準(zhǔn)測(cè)試上,在 23 個(gè)移動(dòng)應(yīng)用上測(cè)試 226 項(xiàng)任務(wù),與 AutoDroid、SeeClick、CogAgent 和 Mind2Web 等基線相比,任務(wù)完成率提高 10.5%-51.7%。
在資源消耗方面,輸入和輸出 token 消耗分別減少至 43.5 分之一和 5.8 分之一,LLM 推理延遲降低至 5.7~13.4 分之一。
跨 LLM 測(cè)試中,在 Llama3.2-3B、Qwen2.5-7B 和 Llama3.1-8B 上表現(xiàn)一致,成功率 44.6%-54.4%,反向冗余比 90.5%-93.0%。
IT之家附上參考地址
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。