IT之家 9 月 15 日消息,科技媒體 NeoWin 昨日(9 月 14 日)發(fā)布博文,報(bào)道稱微軟官方推出了 Windows Agent Arena 基準(zhǔn)框架,用于評(píng)估生成式 AI Agents 在 Windows PC 上的性能。
Windows Agent Arena 基準(zhǔn)框架
微軟表示該基準(zhǔn)框架 AI Agents 使用主流 Windows 應(yīng)用方面的能力和速度,其中包括 Microsoft Edge 和谷歌 Chrome 瀏覽器,Visual Studio Code 等編程應(yīng)用,記事本、時(shí)鐘和畫(huà)圖等預(yù)裝 Windows 應(yīng)用,VLC 等主流媒體播放器。
IT之家翻譯部分微軟官方博文內(nèi)容如下:
我們采用 OSWorld 框架,構(gòu)建了橫跨代表性領(lǐng)域的 150 多項(xiàng)多樣化 Windows 任務(wù),這些任務(wù)要求代理具備規(guī)劃、屏幕理解和工具使用的能力。
我們的基準(zhǔn)測(cè)試同樣具有可擴(kuò)展性,能夠在 Azure 上無(wú)縫并行化,從而在最短 20 分鐘內(nèi)完成全面評(píng)估。
Navi
微軟研究院也打造了自己的多模態(tài) Agents Navi,并在 Windows Agent Arena 基準(zhǔn)測(cè)試中對(duì)其進(jìn)行了試驗(yàn)。
它被要求根據(jù)特定文本提示執(zhí)行任務(wù),例如:“你能將我正在瀏覽的網(wǎng)頁(yè)轉(zhuǎn)換成 PDF 文件并放置在我的主屏幕上嗎,就是那個(gè)桌面?”結(jié)果顯示,Navi 的平均任務(wù)成功率為 19.5%,相較于人類 74.5% 的表現(xiàn)評(píng)分,這一成績(jī)?nèi)燥@偏低。
IT之家附上參考地址
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。