設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色
中国联通上线 iPhone eSIM 网站    华为 2024 年净利润 626 亿元

微軟發(fā)布 Windows Agent Arena 基準(zhǔn)框架,評(píng)估 AI Agents 運(yùn)行主流 Windows 應(yīng)用性能

2024/9/15 10:04:37 來(lái)源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 9 月 15 日消息,科技媒體 NeoWin 昨日(9 月 14 日)發(fā)布博文,報(bào)道稱微軟官方推出了 Windows Agent Arena 基準(zhǔn)框架,用于評(píng)估生成式 AI Agents 在 Windows PC 上的性能

Windows Agent Arena 基準(zhǔn)框架

微軟表示該基準(zhǔn)框架 AI Agents 使用主流 Windows 應(yīng)用方面的能力和速度,其中包括 Microsoft Edge 和谷歌 Chrome 瀏覽器,Visual Studio Code 等編程應(yīng)用,記事本、時(shí)鐘和畫(huà)圖等預(yù)裝 Windows 應(yīng)用,VLC 等主流媒體播放器。

IT之家翻譯部分微軟官方博文內(nèi)容如下:

我們采用 OSWorld 框架,構(gòu)建了橫跨代表性領(lǐng)域的 150 多項(xiàng)多樣化 Windows 任務(wù),這些任務(wù)要求代理具備規(guī)劃、屏幕理解和工具使用的能力。

我們的基準(zhǔn)測(cè)試同樣具有可擴(kuò)展性,能夠在 Azure 上無(wú)縫并行化,從而在最短 20 分鐘內(nèi)完成全面評(píng)估。

Navi

微軟研究院也打造了自己的多模態(tài) Agents Navi,并在 Windows Agent Arena 基準(zhǔn)測(cè)試中對(duì)其進(jìn)行了試驗(yàn)。

它被要求根據(jù)特定文本提示執(zhí)行任務(wù),例如:“你能將我正在瀏覽的網(wǎng)頁(yè)轉(zhuǎn)換成 PDF 文件并放置在我的主屏幕上嗎,就是那個(gè)桌面?”結(jié)果顯示,Navi 的平均任務(wù)成功率為 19.5%,相較于人類 74.5% 的表現(xiàn)評(píng)分,這一成績(jī)?nèi)燥@偏低。

IT之家附上參考地址

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:微軟AI
  • 日榜
  • 周榜
  • 月榜

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知