首頁 > 智能時代>人工智能

索尼搞了個大新聞：AI 打敗人類三冠王，登上 Nature 封面

量子位 2022/2/10 13:42:17 責編：長河

評論：

今天，索尼真是背刺了一把任天堂。早上任天堂在直面會上公布了諸多游戲大作：異度之刃 3、火焰紋章無雙、馬里奧前鋒…… 可謂占盡風頭。然而，萬萬沒想到，索尼的 3A 游戲大作居然搞了個更大的新聞，登上了 Nature 封面。

索尼 3A 游戲登上 Nature 封面

把游戲宣發(fā)做到了頂級學術期刊封面，我服。不過這篇文章可不是加錢打廣告，而是實實在在的技術論文 —— 一只來自索尼的 AI，名叫 GT Sophy。

且看這位 AI 賽車手的比賽畫面，先是一個機智變道繞開對手的卡位：

AI 賽車手的比賽畫面

隨后在彎道膠著時大秀操作，以 190km / h 的速度一舉反超，將對手甩到身后。

AI 賽車手的比賽畫面

可別覺得 AI 在賽車游戲里戰(zhàn)勝人類沒啥特別的，要知道，這樣的比賽是在 GT 賽車中進行的 —— 這是一款高度擬真的賽車游戲，也就是說，選手們幾乎就是在真?開車。

圖右為 GT 世界冠軍 Takuma Miyazono

▲ 圖右為 GT 世界冠軍 Takuma Miyazono

而 GT Sophy 也是世界上首個在此類需要持續(xù)判斷和高速反應的賽車游戲中，戰(zhàn)勝人類冠軍的 AI。

斯坦福汽車研究中心聯(lián)合主任 Chris Gerdes 教授就對此表示：

GT Sophy 在比賽中如此熟練地超越人類駕駛員，這對于人工智能而言是一項里程碑式的進步。

值得一提的是，最新一代 GT 系列游戲 Gran Turismo 7 將在 3 月 4 日正式登陸 PS4 / PS5 平臺。

雖然玩家們不太可能在第一時間對戰(zhàn) GT Sophy，但索尼已經(jīng)表示，他們正在努力將這只強大的 AI 整合到 GT 賽車中。

并不簡單的賽車 AI

AI 戰(zhàn)勝人類，在很多人聽來已經(jīng)不夠新鮮。但與過去在國際象棋、圍棋等棋類游戲，或星際爭霸、Dota 等動作游戲中一展拳腳的 AI 相比，賽車那看似“先到終點就贏”的簡單目標，實際上要復雜得多：

比如剎車，就是一種不斷探索汽車輪胎與道路之間摩擦力的“物理戰(zhàn)”。轉彎時剎車太早，可能就無法順利過彎，還會損失車速；剎車太晚，又難以保持想要的路線軌跡，甚至導致車體旋轉。

AI 賽車手的比賽畫面

整個比賽過程中，賽車手必須時刻保持對周圍環(huán)境的判斷，并能根據(jù)路況作出及時的反應。同時，駕駛技巧、針對不同對手的戰(zhàn)術策略、甚至是遵守規(guī)則的賽車精神和禮儀…… 都是一個賽車 AI 所必備的素養(yǎng)。

為了達成這些目標，索尼將 AI 的訓練場設在了自家的 GT 賽車系列的游戲中。

GT 賽車系列

這是一款 PS 平臺獨占游戲，全名 Gran Turismo，是一個汽車行業(yè)中的真實名詞，意為“能夠長距離行駛的高性能車”。

這款游戲主打的就是真實駕駛感，甚至可以通過一套帶力反饋的方向盤外設體會到橫向 g 值、前輪滑移率、車重、車輛的調教特性等各種細膩的路感反饋。

在 GT 游戲中，研究這種通常使用 10 到 20 臺 PS 游戲機、同等數(shù)量的計算實例、一臺異步更新神經(jīng)網(wǎng)絡的 GPU，從頭開始訓練這個叫做 GT Sophy 的 AI。

一臺異步更新神經(jīng)網(wǎng)絡的 GPU

訓練主要針對兩個連續(xù)值的維度：轉向和速度。同時，為了把 GT Sophy 和人類拉到同一起跑線上，研究者們還調慢了它的操作速度：

對游戲的交互頻率為 10 赫茲（人類標準是 60 赫茲），反應時間則分別為 100 毫秒、200 毫秒、250 毫秒。

在一張完整的地圖中，研究者以 6 秒為單位，將智能體所跑的賽道量化為一段一段的“靜態(tài)地圖段”，并將每一段賽道的左右邊緣和中心線編碼為 60 個等距的三維點：

靜態(tài)地圖段

訓練場準備好了，現(xiàn)在就是讓 GT Sophy 真正成為一名會轉彎、會思考的賽車手。

行為者- 評價者機制

索尼使用了一種新的深度學習算法，也叫做量化回歸的行為者-評價者（QR-SAC）方法。

AI 智能體會被扔到一個沒有指令的環(huán)境中，并根據(jù)評價者（也就是價值函數(shù)）的評估來選擇行動，并根據(jù)完成目標的結果而獲得獎勵或懲罰。比如，智能體會因為保持高速前進而獲獎勵，也會因為出界、撞墻或失去牽引力受到懲罰。

這種獎懲機制使智能體迅速得到積極的反饋，慢慢開始熟悉在賽道上的行為。事實上，GT Sophy 只用了幾個小時就學會了在賽道上行駛，并很快就在 Maggiore 賽道上超越了 17700 名玩家：

行為者- 評價者機制

但這種單純的速度，或者說賽道完成進度上的獎勵并不足以激勵智能體贏得比賽。因為如果對手速度足夠快，智能體就完全可以通過跟隨并學習對手的“偷懶”的方式積累大量獎勵，最終也能完成目標。

于是，研究者們增加了“超車獎勵”，并且，相對于對手的距離的改變也會與獎勵積分成比例。同時，賽車的碰撞上也有獎懲機制，研究人員設置了一種較為保守的獎勵：

在確保智能體能以足夠強悍的駕駛風格贏得勝利的同時，也不至于會粗暴地將其他賽車趕出道路，而遭受真正的賽車規(guī)則的懲罰。

最終，GT Sophy 在 GT 賽車比賽中勝過了 2021 年 TGR GT 杯冠軍、2020 年國家杯世界冠軍和 2021 年亞軍、2018 年國家杯亞洲 / 大洋洲冠軍等多位世界頂級賽車手。

比賽畫面

在比賽中，GT Sophy 在三條賽道上都取得了第一名。而在比賽中，它能夠執(zhí)行幾種類型的轉彎，有效地利用漂移，擾亂后面車輛，攔截對手并執(zhí)行其他緊急操縱。

不過，研究者也提到，GT Sophy 在戰(zhàn)略決策方面還存在著一些改進的空間：有時會在同一條跑道上留出足夠的空間，讓對手有機可乘。

索尼要用它開發(fā)自動駕駛

看到這里，你覺得 GT Sophy 能力如何？反正幾位世界級選手們是服氣了。

在 GT 賽車世界級賽事上斬獲三冠的宮園拓真（Takuma Miyazono）表示：

Sophy 的速度非?？?，單圈時間勝過了此前對最佳車手的預期。

—— 在其中一場比賽中，GT Sophy Rouge 以 5.8 秒的優(yōu)勢戰(zhàn)勝了第二名山中智明（2021 年 TGR GT 杯冠軍），最快圈速為 1：54.373，比山中快了 2 秒多。

而 GT Sophy 的能力顯然不僅僅能在游戲中大殺四方。斯坦福汽車研究中心聯(lián)合主任 Chris Gerdes 教授就指出，GT Sophy 背后的 AI 技術，可以幫助開發(fā)自動駕駛汽車：

GT Sophy 在賽道上的成功表明，有朝一日，神經(jīng)網(wǎng)絡在自動駕駛汽車軟件中的作用可能比現(xiàn)在更大。

目前，神經(jīng)網(wǎng)絡算法在自動駕駛汽車軟件中主要負責跟蹤道路標記、感知障礙，控制軟件則仍依賴于人為設定的規(guī)則。豐田研究所高級經(jīng)理 Avinash Balachandran 也表示，“在賽車中應用機器學習和自主控制令人興奮”。

還有不少網(wǎng)友認為，這一 AI 或許與索尼新成立的電動汽車公司有關，或許再過幾年，這個 AI 就能在其自動駕駛技術中看到了。

當然對于索尼玩家來說，最期待的是：下個月上市的 GT7 能否加入這個最強 AI？

好消息是 GT7 仍會登陸上一代游戲機 PS4，沒買到 PS5 的玩家也能嘗嘗鮮了。

論文：

https://www.nature.com/articles/s41586-021-04357-7

參考鏈接：

https://sonyai.github.io/gt_sophy_public/

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：索尼，AI，Nature

索尼搞了個大新聞：AI 打敗人類三冠王，登上 Nature 封面

并不簡單的賽車 AI

行為者- 評價者機制

索尼要用它開發(fā)自動駕駛

相關文章