設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

清華大學(xué)推 AutoDroid-V2:AI 離線在線協(xié)同,優(yōu)化移動(dòng)端自動(dòng)化 GUI 控制

2025/1/2 15:45:05 來(lái)源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 1 月 2 日消息,清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)于 2024 年 12 月 24 日發(fā)布論文,介紹推出 AutoDroid-V2 AI 模型,在移動(dòng)設(shè)備上利用小語(yǔ)言模型,顯著提升了自然語(yǔ)言控制的自動(dòng)化程度。

該系統(tǒng)采用基于腳本的方法,利用設(shè)備端小型語(yǔ)言模型(SLM)的編碼能力,高效執(zhí)行用戶指令。相比依賴云端大型語(yǔ)言模型(LLM)的傳統(tǒng)方法,AutoDroid-V2 在效率、隱私和安全性方面均有顯著優(yōu)勢(shì)。

項(xiàng)目背景

大型語(yǔ)言模型(LLMs)和視覺(jué)語(yǔ)言模型(VLM)通過(guò)自然語(yǔ)言命令,徹底改變了移動(dòng)設(shè)備控制的自動(dòng)化,為復(fù)雜的用戶任務(wù)提供了解決方案。

自動(dòng)化控制設(shè)備主流采用“逐步 GUI 智能體”(Step-wise GUI agents)方式,通過(guò)在每個(gè) GUI 狀態(tài)查詢,LLM 進(jìn)行動(dòng)態(tài)決策和反思、持續(xù)處理用戶的任務(wù),并觀察 GUI 狀態(tài)直至完成來(lái)進(jìn)行操作。

但這種方式嚴(yán)重依賴基于云端的模型,在分享個(gè)人 GUI 頁(yè)面時(shí),還存在隱私和安全風(fēng)險(xiǎn),此外還存在大量的用戶端流量消耗以及高昂的服務(wù)器端集中服務(wù)成本等嚴(yán)重問(wèn)題,阻礙大規(guī)模部署 GUI 智能體。

項(xiàng)目簡(jiǎn)介

不同于傳統(tǒng)的逐步操作,AutoDroid-V2 根據(jù)用戶指令生成多步驟腳本,一次性執(zhí)行多個(gè) GUI 操作,大幅減少了查詢頻率和資源消耗。

利用設(shè)備上的小型語(yǔ)言模型進(jìn)行腳本生成和執(zhí)行,避免了對(duì)強(qiáng)大云端模型的依賴,有效保護(hù)了用戶隱私和數(shù)據(jù)安全,并降低了服務(wù)器端成本。

該模型在離線階段會(huì)構(gòu)建應(yīng)用程序文檔,包含 AI 引導(dǎo)的 GUI 狀態(tài)壓縮、元素 XPath 自動(dòng)生成和 GUI 依賴分析,為腳本生成奠定基礎(chǔ)。

此外用戶提交任務(wù)請(qǐng)求后,本地 LLM 生成多步驟腳本,由特定域解釋器執(zhí)行,確??煽扛咝У倪\(yùn)行。

性能

基準(zhǔn)測(cè)試上,在 23 個(gè)移動(dòng)應(yīng)用上測(cè)試 226 項(xiàng)任務(wù),與 AutoDroid、SeeClick、CogAgent 和 Mind2Web 等基線相比,任務(wù)完成率提高 10.5%-51.7%。

在資源消耗方面,輸入和輸出 token 消耗分別減少至 43.5 分之一和 5.8 分之一,LLM 推理延遲降低至 5.7~13.4 分之一。

跨 LLM 測(cè)試中,在 Llama3.2-3B、Qwen2.5-7B 和 Llama3.1-8B 上表現(xiàn)一致,成功率 44.6%-54.4%,反向冗余比 90.5%-93.0%。

IT之家附上參考地址

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:清華,AI

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知