設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

索尼搞了個大新聞:AI 打敗人類三冠王,登上 Nature 封面

量子位 2022/2/10 13:42:17 責編:長河

 今天,索尼真是背刺了一把任天堂。早上任天堂在直面會上公布了諸多游戲大作:異度之刃 3、火焰紋章無雙、馬里奧前鋒…… 可謂占盡風頭。然而,萬萬沒想到,索尼的 3A 游戲大作居然搞了個更大的新聞,登上了 Nature 封面。

索尼 3A 游戲登上 Nature 封面

把游戲宣發(fā)做到了頂級學術期刊封面,我服。不過這篇文章可不是加錢打廣告,而是實實在在的技術論文 —— 一只來自索尼的 AI,名叫 GT Sophy。

且看這位 AI 賽車手的比賽畫面,先是一個機智變道繞開對手的卡位:

AI 賽車手的比賽畫面

隨后在彎道膠著時大秀操作,以 190km / h 的速度一舉反超,將對手甩到身后。

AI 賽車手的比賽畫面

可別覺得 AI 在賽車游戲里戰(zhàn)勝人類沒啥特別的,要知道,這樣的比賽是在 GT 賽車中進行的 —— 這是一款高度擬真的賽車游戲,也就是說,選手們幾乎就是在真?開車。

圖右為 GT 世界冠軍 Takuma Miyazono

▲ 圖右為 GT 世界冠軍 Takuma Miyazono

而 GT Sophy 也是世界上首個在此類需要持續(xù)判斷和高速反應的賽車游戲中,戰(zhàn)勝人類冠軍的 AI。

斯坦福汽車研究中心聯(lián)合主任 Chris Gerdes 教授就對此表示:

GT Sophy 在比賽中如此熟練地超越人類駕駛員,這對于人工智能而言是一項里程碑式的進步。

值得一提的是,最新一代 GT 系列游戲 Gran Turismo 7 將在 3 月 4 日正式登陸 PS4 / PS5 平臺。

雖然玩家們不太可能在第一時間對戰(zhàn) GT Sophy,但索尼已經(jīng)表示,他們正在努力將這只強大的 AI 整合到 GT 賽車中。

并不簡單的賽車 AI

AI 戰(zhàn)勝人類,在很多人聽來已經(jīng)不夠新鮮。但與過去在國際象棋、圍棋等棋類游戲,或星際爭霸、Dota 等動作游戲中一展拳腳的 AI 相比,賽車那看似“先到終點就贏”的簡單目標,實際上要復雜得多:

比如剎車,就是一種不斷探索汽車輪胎與道路之間摩擦力的“物理戰(zhàn)”。轉彎時剎車太早,可能就無法順利過彎,還會損失車速;剎車太晚,又難以保持想要的路線軌跡,甚至導致車體旋轉。

AI 賽車手的比賽畫面

整個比賽過程中,賽車手必須時刻保持對周圍環(huán)境的判斷,并能根據(jù)路況作出及時的反應。同時,駕駛技巧、針對不同對手的戰(zhàn)術策略、甚至是遵守規(guī)則的賽車精神和禮儀…… 都是一個賽車 AI 所必備的素養(yǎng)。

為了達成這些目標,索尼將 AI 的訓練場設在了自家的 GT 賽車系列的游戲中。

GT 賽車系列

這是一款 PS 平臺獨占游戲,全名 Gran Turismo,是一個汽車行業(yè)中的真實名詞,意為“能夠長距離行駛的高性能車”。

這款游戲主打的就是真實駕駛感,甚至可以通過一套帶力反饋的方向盤外設體會到橫向 g 值、前輪滑移率、車重、車輛的調教特性等各種細膩的路感反饋。

在 GT 游戲中,研究這種通常使用 10 到 20 臺 PS 游戲機、同等數(shù)量的計算實例、一臺異步更新神經(jīng)網(wǎng)絡的 GPU,從頭開始訓練這個叫做 GT Sophy 的 AI。

一臺異步更新神經(jīng)網(wǎng)絡的 GPU

訓練主要針對兩個連續(xù)值的維度:轉向和速度。同時,為了把 GT Sophy 和人類拉到同一起跑線上,研究者們還調慢了它的操作速度:

對游戲的交互頻率為 10 赫茲(人類標準是 60 赫茲),反應時間則分別為 100 毫秒、200 毫秒、250 毫秒。

在一張完整的地圖中,研究者以 6 秒為單位,將智能體所跑的賽道量化為一段一段的“靜態(tài)地圖段”,并將每一段賽道的左右邊緣和中心線編碼為 60 個等距的三維點:

靜態(tài)地圖段

訓練場準備好了,現(xiàn)在就是讓 GT Sophy 真正成為一名會轉彎、會思考的賽車手。

行為者- 評價者機制

索尼使用了一種新的深度學習算法,也叫做量化回歸的行為者-評價者(QR-SAC)方法。

AI 智能體會被扔到一個沒有指令的環(huán)境中,并根據(jù)評價者(也就是價值函數(shù))的評估來選擇行動,并根據(jù)完成目標的結果而獲得獎勵或懲罰。比如,智能體會因為保持高速前進而獲獎勵,也會因為出界、撞墻或失去牽引力受到懲罰。

這種獎懲機制使智能體迅速得到積極的反饋,慢慢開始熟悉在賽道上的行為。事實上,GT Sophy 只用了幾個小時就學會了在賽道上行駛,并很快就在 Maggiore 賽道上超越了 17700 名玩家:

行為者- 評價者機制

但這種單純的速度,或者說賽道完成進度上的獎勵并不足以激勵智能體贏得比賽。因為如果對手速度足夠快,智能體就完全可以通過跟隨并學習對手的“偷懶”的方式積累大量獎勵,最終也能完成目標。

于是,研究者們增加了“超車獎勵”,并且,相對于對手的距離的改變也會與獎勵積分成比例。同時,賽車的碰撞上也有獎懲機制,研究人員設置了一種較為保守的獎勵:

在確保智能體能以足夠強悍的駕駛風格贏得勝利的同時,也不至于會粗暴地將其他賽車趕出道路,而遭受真正的賽車規(guī)則的懲罰。

最終,GT Sophy 在 GT 賽車比賽中勝過了 2021 年 TGR GT 杯冠軍、2020 年國家杯世界冠軍和 2021 年亞軍、2018 年國家杯亞洲 / 大洋洲冠軍等多位世界頂級賽車手。

比賽畫面

在比賽中,GT Sophy 在三條賽道上都取得了第一名。而在比賽中,它能夠執(zhí)行幾種類型的轉彎,有效地利用漂移,擾亂后面車輛,攔截對手并執(zhí)行其他緊急操縱。

比賽

不過,研究者也提到,GT Sophy 在戰(zhàn)略決策方面還存在著一些改進的空間:有時會在同一條跑道上留出足夠的空間,讓對手有機可乘。

索尼要用它開發(fā)自動駕駛

看到這里,你覺得 GT Sophy 能力如何?反正幾位世界級選手們是服氣了。

在 GT 賽車世界級賽事上斬獲三冠的宮園拓真(Takuma Miyazono)表示:

Sophy 的速度非???,單圈時間勝過了此前對最佳車手的預期。

—— 在其中一場比賽中,GT Sophy Rouge 以 5.8 秒的優(yōu)勢戰(zhàn)勝了第二名山中智明(2021 年 TGR GT 杯冠軍),最快圈速為 1:54.373,比山中快了 2 秒多。

而 GT Sophy 的能力顯然不僅僅能在游戲中大殺四方。斯坦福汽車研究中心聯(lián)合主任 Chris Gerdes 教授就指出,GT Sophy 背后的 AI 技術,可以幫助開發(fā)自動駕駛汽車:

GT Sophy 在賽道上的成功表明,有朝一日,神經(jīng)網(wǎng)絡在自動駕駛汽車軟件中的作用可能比現(xiàn)在更大。

目前,神經(jīng)網(wǎng)絡算法在自動駕駛汽車軟件中主要負責跟蹤道路標記、感知障礙,控制軟件則仍依賴于人為設定的規(guī)則。豐田研究所高級經(jīng)理 Avinash Balachandran 也表示,“在賽車中應用機器學習和自主控制令人興奮”。

還有不少網(wǎng)友認為,這一 AI 或許與索尼新成立的電動汽車公司有關,或許再過幾年,這個 AI 就能在其自動駕駛技術中看到了。

評論

當然對于索尼玩家來說,最期待的是:下個月上市的 GT7 能否加入這個最強 AI?

評論

好消息是 GT7 仍會登陸上一代游戲機 PS4,沒買到 PS5 的玩家也能嘗嘗鮮了。

論文:

https://www.nature.com/articles/s41586-021-04357-7

參考鏈接:

https://sonyai.github.io/gt_sophy_public/

廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:索尼,AINature

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知