李想：L4 級別自動駕駛三年內可實現(xiàn)，理想汽車三季度將推出無圖 NOA

2024/6/8 15:13:41 來源：IT之家作者：浩渺責編：浩渺

評論：

感謝IT之家網(wǎng)友西窗舊事的線索投遞！

IT之家 6 月 8 日消息，今日，理想汽車董事長兼 CEO 李想在 2024 中國汽車重慶論壇上透露，理想汽車將在今年第三季度推出全國無圖 NOA。

與此同時，理想汽車還將同步向測試用戶推出通過 300 萬 Clips （預訓練模型）訓練出來的端到端 + VLM （視覺語言模型）的監(jiān)督型自動駕駛體系。今年年底到明年年初，將推出超過 1000 萬 Clips 訓練的監(jiān)督型自動駕駛體系。

基于這一體系，李想認為，隨著技術演進和算力增強，無監(jiān)督 L4 級別自動駕駛將在三年內實現(xiàn)。

李想：L4 級別自動駕駛三年內可實現(xiàn)，理想汽車三季度將推出無圖 NOA

IT之家附李想演講全文：

感謝王俠會長和重慶市，給我這樣一個向大家學習和交流的機會。我今天分享我們在過去半年多的時間做的一個重要技術的突破，是關于自動駕駛的技術的突破。
我這里強調一下，我講的是 4 個字“自動駕駛”，不是“智能駕駛”，也不是“輔助駕駛”，這是最關鍵的。公司內部從去年 9 月份開始來思考一個問題，并專門建立了一個用于自動駕駛研究的團隊，一個最簡單的問題，人類開車為什么不涉及學習 corner case (邊界情況或極端情況)。如果不解決這個問題，所有自動駕駛團隊每天干的活都是靠人工去調試各種各樣的 corner case，而且人越多，corner case 越多，離真正的自動駕駛就越遙遠。
最核心的一個原因，當人工智能技術不斷發(fā)展的時候，其實人類開車的方式不是過去這么多年用的自動駕駛研發(fā)的一個方式，這是一個根本的不同。因為人開車沒那么辛苦，沒那么累，不需要養(yǎng)幾千人的團隊去搞 corner case。而且團隊越多，corner case 就越多。所以我們從理論和技術的兩個角度研究，人類到底怎么開車，新的技術如何解決自動駕駛開車的問題。
首先從理論的角度，我們先是從一本書里得到了啟示，叫作《思考快與慢》。
這本書講述了日常的時候，大腦在工作的時候，分為系統(tǒng) 1 和系統(tǒng) 2。系統(tǒng) 1 來處理一些直覺、快速響應的事情，其實就像我們在開車，很多時候我們在開車，腦子在想別的事情，但我們仍然在處理路上的各種事情，這就意味著我們用系統(tǒng) 1 在工作，并不是大腦不在工作，是大腦以一種獨有的低能耗的方式工作。當去到一個復雜的路段，比如十字路口或者遇到一個水坑，這時候調用大腦系統(tǒng) 2 工作，處理復雜邏輯推演的能力，但是對大腦的消耗比較大，所以大家不會一直用系統(tǒng) 2 的方式來開車。解決各種復雜路況，解決泛化的問題、未知的問題，大腦會啟用系統(tǒng) 2 工作。正常我們開車 95% 的時間使用系統(tǒng) 1，5% 的時間使用系統(tǒng) 2，所以人腦每天不需要每天的功耗，人不需要學習這些就學會開車。
如果這樣的人類工作方式，自動駕駛應該怎么工作，什么是自動駕駛的系統(tǒng) 1，什么是自動駕駛的系統(tǒng) 2？隨著對各種技術的研究，自動駕駛系統(tǒng) 1，今天很多自動駕駛團隊都在做的端到端這樣一個技術。端到端，就意味著我們把完整的訓練頻段放進來，最后結果是輸入直接產(chǎn)出輸出，不像過往一個感知的模塊，一個規(guī)劃的模塊，一個決策的模塊，一個執(zhí)行的模塊。這樣效率更高。但是它的挑戰(zhàn)也來了，各種人類規(guī)則在里面也不發(fā)揮作用了。
挑戰(zhàn)有三個方面：一是要有真正做端到端包括這方面數(shù)據(jù)訓練的人才，二是需要真正高質量的數(shù)據(jù)，三是需要足夠多的算力。因為端到端對于算力的需求，和以往變得不一樣了。在端到端方面，我們大概放入了 100 萬 clips，用于端到端的訓練，大概一個月十輪左右的訓練，基本就可以完成一個無圖 NOA 的上限水平。但是面對中國的復雜路況，只有端到端不夠，我們要思考什么是系統(tǒng) 2。系統(tǒng) 2 的啟發(fā)在于什么呢？在于解決各種各樣的 corner case 和各種泛化的問題，人類并不是通過學習 corner case 來開車的。
最明顯的一個案例和啟發(fā)是什么呢？我的愛人剛學會開車，連續(xù)好多年都不停地刮蹭。你和她分析下一次怎么不刮蹭，還是沒有用，還是刮蹭。我就分析是不是買的車太大，換一輛小的車，她仍然刮蹭，怎么說都會刮蹭。這時我們會發(fā)現(xiàn)學習 corner case 沒有用，我們能不能通過提升能力的方式？當時我做了挺重要的一個判斷，給我愛人報寶馬駕駛培訓的初級班。寶馬駕駛培訓初級班一整天，通過各種各樣的方式，只教了兩個：一是無論在賽道上過彎還是繞樁還是處于環(huán)形路面的時候，你在打轉向之前眼睛看向哪里？不是看你通過的路口，而是看你接下來要去的地方。用各種各樣的方式，教我們開車要看路。另外寶馬駕駛培訓班教了另外一個能力，各種復雜場景里如何把剎車踩到底，包括濕滑的路面、轉彎的路面，一半鋼板一半道路的路面。寶馬培訓班就教了兩個事情：一是教你看路的能力，二是教你剎車的能力，只經(jīng)過這么一天的訓練，我愛人就徹底和刮蹭告別了。所以在接下來的十幾年里，沒有出現(xiàn)過任何的刮蹭。所以這是人類學習的一個方式。
我們在考慮如何把這樣能力給到車上，很重要的一個技術是 VLM，即視覺語言模型，為什么不是大語言模型？因為沒有辦法把一個大語言模型在云端使用，這個響應速度就會車毀人亡了。所以我們還是思考如何把一個視覺大語言模型進行足夠壓縮，最后放到車上去。它能夠在面對一個沒有紅綠燈的左轉路口提前作出預判，來知道我這個路口如何進行特殊復雜的處理。
還有另外一個重要的功能，就是告別高清地圖。因為視覺的語言模型還有一個最重要的功能，是能夠像人類一樣去讀懂導航地圖。包含導航地圖的橫向、縱向、速度、時間，包括紅綠燈，哪怕車輛的遮擋紅綠燈也不再成為問題。我們會發(fā)現(xiàn)可以有效通過視覺語言模型解決系統(tǒng) 2 的問題，一方面為端到端進行一個兜底，另一方面解決各種各樣泛化的問題。我們認為最早在今年年底，最晚在明年上半年，真正有監(jiān)督的 L3 自動駕駛就就可以批量向用戶交付了，而不是做實驗了。
解決這兩個問題還有第三個問題。因為端到端是黑盒子，VLM 也是黑盒子，AI 最大的區(qū)別是能力，而過去的編程體系最重要是功能。功能要通過實驗和測試來驗證的，而能力怎么拿測試和實驗驗證，是不可能的。所以這時候一個新的挑戰(zhàn)，我們用什么樣的技術方式驗證能力，這時候我們又找到一個新的方式，主要的原理來自 Sora，我們來構建一個小型的視覺模型，拿這個視覺模型讓我們的車在里面考試。這樣我們模擬人的一套真正工作原理開始呈現(xiàn)了，端到端承載人的系統(tǒng) 1，VLM 來承載人的系統(tǒng) 2。系統(tǒng) 1 來解決所有正常自動駕駛的能力，系統(tǒng) 2 來解決兜底和泛化的能力，并應用生成式的小的視覺模型來進行考試。這是我們在過去一段時間里做的最重要的一個技術性突破，而且我們的研究團隊已經(jīng)完全通過了正常的研究驗證。
接下來會怎么樣呢？我們在三季度正式推全國無圖 NOA 的時候，也會向測試用戶通過 300 萬 clips 訓練出來的端到端 + VLM 的一套監(jiān)督型自動駕駛體系。最早會在今年的年底，最晚明年年初，我們會推出超過 1000 萬 clips 訓練的端到端 + VLM 的帶有監(jiān)督的自動駕駛體系。我們認為端到端 + VLM + 生成式的驗證系統(tǒng)，也會是未來整個物理世界機器人最重要技術架構和技術體系。
接下來一段時間，包含最近本月還有下月還有幾個關鍵 AI 方面的技術論壇里，我們技術研究的同事也會向整個行業(yè)來分享我們對這方面的研究、治理原理和實際結果，把我們進行的一些探索，能夠和同行進行有效地分享。另一方面，就像剛才講的，我們會在 7 月份，以及最早年底、最晚明年年初，把這樣的技術帶給用戶。通過這樣的技術，可以確定地堅信一件事情，在現(xiàn)有的計算平臺上，帶有監(jiān)督 L3 級別的自動駕駛可以百分之百實現(xiàn)。并且隨著這套技術的演進、算力增強，我認為 L4 級別無監(jiān)督的自動駕駛在三年內一定能夠實現(xiàn)。謝謝大家！

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：理想汽車，李想

李想：L4 級別自動駕駛三年內可實現(xiàn)，理想汽車三季度將推出無圖 NOA

相關文章

李想：L4 級別自動駕駛三年內可實現(xiàn)，理想汽車三季度將推出無圖 NOA