微軟發(fā)布 Windows Agent Arena 基準(zhǔn)框架，評(píng)估 AI Agents 運(yùn)行主流 Windows 應(yīng)用性能

2024/9/15 10:04:37 來(lái)源：IT之家作者：故淵責(zé)編：故淵

評(píng)論：

IT之家 9 月 15 日消息，科技媒體 NeoWin 昨日（9 月 14 日）發(fā)布博文，報(bào)道稱微軟官方推出了 Windows Agent Arena 基準(zhǔn)框架，用于評(píng)估生成式 AI Agents 在 Windows PC 上的性能。

Windows Agent Arena 基準(zhǔn)框架

微軟表示該基準(zhǔn)框架 AI Agents 使用主流 Windows 應(yīng)用方面的能力和速度，其中包括 Microsoft Edge 和谷歌 Chrome 瀏覽器，Visual Studio Code 等編程應(yīng)用，記事本、時(shí)鐘和畫(huà)圖等預(yù)裝 Windows 應(yīng)用，VLC 等主流媒體播放器。

微軟發(fā)布 Windows Agent Arena 基準(zhǔn)框架，評(píng)估 AI Agents 運(yùn)行主流 Windows 應(yīng)用性能

IT之家翻譯部分微軟官方博文內(nèi)容如下：

我們采用 OSWorld 框架，構(gòu)建了橫跨代表性領(lǐng)域的 150 多項(xiàng)多樣化 Windows 任務(wù)，這些任務(wù)要求代理具備規(guī)劃、屏幕理解和工具使用的能力。
我們的基準(zhǔn)測(cè)試同樣具有可擴(kuò)展性，能夠在 Azure 上無(wú)縫并行化，從而在最短 20 分鐘內(nèi)完成全面評(píng)估。

Navi

微軟研究院也打造了自己的多模態(tài) Agents Navi，并在 Windows Agent Arena 基準(zhǔn)測(cè)試中對(duì)其進(jìn)行了試驗(yàn)。

微軟發(fā)布 Windows Agent Arena 基準(zhǔn)框架，評(píng)估 AI Agents 運(yùn)行主流 Windows 應(yīng)用性能

它被要求根據(jù)特定文本提示執(zhí)行任務(wù)，例如：“你能將我正在瀏覽的網(wǎng)頁(yè)轉(zhuǎn)換成 PDF 文件并放置在我的主屏幕上嗎，就是那個(gè)桌面？”結(jié)果顯示，Navi 的平均任務(wù)成功率為 19.5%，相較于人類 74.5% 的表現(xiàn)評(píng)分，這一成績(jī)?nèi)燥@偏低。

微軟發(fā)布 Windows Agent Arena 基準(zhǔn)框架，評(píng)估 AI Agents 運(yùn)行主流 Windows 應(yīng)用性能

IT之家附上參考地址

Windows Agent Arena

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

微軟發(fā)布 Windows Agent Arena 基準(zhǔn)框架，評(píng)估 AI Agents 運(yùn)行主流 Windows 應(yīng)用性能

Windows Agent Arena 基準(zhǔn)框架

Navi

相關(guān)文章

微軟發(fā)布 Windows Agent Arena 基準(zhǔn)框架，評(píng)估 AI Agents 運(yùn)行主流 Windows 應(yīng)用性能