特斯拉純視覺自動(dòng)駕駛的秘密,被自家高管全曝光了!
不久之前,特斯拉取消了 Model 3 和 Model Y 車型的毫米波雷達(dá),在全球第一個(gè)實(shí)現(xiàn)了純視覺的 L2 級(jí)自動(dòng)駕駛系統(tǒng),引起了自動(dòng)駕駛行業(yè)以及相關(guān)機(jī)構(gòu)的密切關(guān)注。
馬斯克雖然簡(jiǎn)單解釋過(guò)走純視覺路線的原因 —— 避免多傳感器感知結(jié)果不一致的問(wèn)題,但外界對(duì)這答案并不滿意,依然有不少觀點(diǎn)在質(zhì)疑特斯拉的做法。
而特斯拉的 AI 高級(jí)總監(jiān) Andrej Karpathy 剛好在日前發(fā)表了一篇干貨十足的演講,從技術(shù)的角度詳細(xì)介紹了特斯拉走純視覺路線的原因,以及背后的核心做法。
Andrej 的演講時(shí)長(zhǎng)為 40 分鐘,但是他本人語(yǔ)速驚人,甚至可以說(shuō)內(nèi)容量至少是是 40 分鐘演講的 1.5 倍,并且給出了大量技術(shù)細(xì)節(jié)與實(shí)際案例,非常具有說(shuō)服力。
他在演講中講到,從特斯拉開發(fā)自動(dòng)駕駛之初,就沒(méi)有考慮為車輛加入激光雷達(dá)和高精地圖,因?yàn)檫@會(huì)導(dǎo)致建圖、維護(hù)成本大幅上升。而隨著 AI 能力不斷提升,特斯拉直接取消了毫米波雷達(dá)。
純視覺感知最大的問(wèn)題就是無(wú)法測(cè)量距離、速度和加速度。不過(guò)純視覺感知和人眼類似,人腦能“腦補(bǔ)”出距離并擁有優(yōu)秀的駕駛技術(shù),神經(jīng)網(wǎng)絡(luò)同樣有這樣的能力。
在過(guò)去 4 個(gè)月時(shí)間里,特斯拉人工智能團(tuán)隊(duì)的核心 20 名成員搞定了這件事。
特斯拉收集了 221 種共 100 萬(wàn)段 10 秒鐘的短視頻,利用對(duì)物體自動(dòng)標(biāo)簽化,經(jīng)過(guò) 7 輪影子模式循環(huán),最終在純視覺感知中取得了不錯(cuò)的效果,超越了毫米波雷達(dá) + 攝像頭的傳感器融合方案。
特斯拉甚至為此建立了一臺(tái)全球排名第五的超級(jí)計(jì)算機(jī),采用 5760 個(gè)英偉達(dá) A100 Tensor Core GPU,10PB 容量的 NVME 存儲(chǔ)。
以下為 Andrej Karpathy 演講核心內(nèi)容的編譯。
01. 毫米波雷達(dá)表現(xiàn)不穩(wěn) 特斯拉更相信視覺傳感器
演講開始時(shí),Andrej 首先談到了自動(dòng)駕駛的必要性,并且總結(jié)了自動(dòng)駕駛的三大優(yōu)勢(shì)。
人類駕駛一輛車,反應(yīng)時(shí)間通常需要 250 毫秒;觀察周圍交通環(huán)境通過(guò)旋轉(zhuǎn)頭部看后視鏡判斷;同時(shí)人的精力有限,難免出現(xiàn)注意力不集中的現(xiàn)象。
▲人類駕駛 VS 機(jī)器駕駛
當(dāng)機(jī)器在駕駛時(shí),反應(yīng)時(shí)間通常小于 100 毫秒,擁有 360 度的感知能力,同時(shí)機(jī)器永遠(yuǎn)不會(huì)累。
Andrej 說(shuō)道:“全球每天有近 3700 人在車禍中喪生,自動(dòng)駕駛技術(shù)能夠顯著減少車禍發(fā)生的概率。同時(shí),由人類駕駛的出行成本太高,如果機(jī)器駕駛出行成本也將明顯降低?!?/p>
因此,自動(dòng)駕駛技術(shù)十分必要。
從十多年前開始,谷歌等科技公司開啟了自動(dòng)駕駛技術(shù)的研發(fā)。從當(dāng)年的視頻中可以看到,谷歌的表現(xiàn)并不出色,在一個(gè)左轉(zhuǎn)路口處方向飄忽不定。
▲谷歌無(wú)人車多年前的自動(dòng)駕駛表現(xiàn)
經(jīng)過(guò)長(zhǎng)時(shí)間的研發(fā),自動(dòng)駕駛技術(shù)應(yīng)對(duì)各種場(chǎng)景的表現(xiàn)都能做到非常出色。同時(shí),行業(yè)內(nèi)也發(fā)展出了兩條截然不同的感知技術(shù)路線。
其中一條是純視覺感知,另一條是激光雷達(dá)、高精地圖、視覺傳感器的融合感知。
Andrej 說(shuō)道:“很多自動(dòng)駕駛車輛在車頂裝上昂貴的激光雷達(dá),就能夠感知 360 度的環(huán)境,并測(cè)量距離。不過(guò),如果要使用激光雷達(dá),還需要高精地圖的匹配。根據(jù)高精地圖存儲(chǔ)的車道線、紅綠燈等信息,就能夠?qū)崿F(xiàn)自動(dòng)駕駛?!?/p>
不過(guò),特斯拉所走的路線完全不同。特斯拉希望基于環(huán)繞車身的 8 個(gè)攝像頭實(shí)現(xiàn)自動(dòng)駕駛。當(dāng)車輛行駛在道路上時(shí),需要自動(dòng)駕駛電腦判斷哪里是車道線、哪里是紅綠燈。
也就是說(shuō),激光雷達(dá) + 高精地圖的技術(shù)路線本質(zhì)上是匹配的過(guò)程,而純視覺技術(shù)路線則是尋找的過(guò)程。
同時(shí),Andrej 指出,純視覺方案顯然是一個(gè)更具拓展性的技術(shù)路線。當(dāng)前,特斯拉在全球范圍內(nèi)已經(jīng)交付了百萬(wàn)輛汽車,因此打造一套全球范圍的高精地圖并不現(xiàn)實(shí),因此特斯拉選擇了純視覺的技術(shù)路線。
他說(shuō)道:“想要實(shí)現(xiàn)純視覺感知實(shí)際非常困難,需要基于視頻打造非常優(yōu)秀的神經(jīng)網(wǎng)絡(luò)。不過(guò),一旦純視覺系統(tǒng)真正投入使用,將是一套通用的系統(tǒng),并且理論上全球任何區(qū)域都能使用?!?/p>
幾年前特斯拉開始研發(fā) Autopilot 時(shí),就已經(jīng)確定不使用高精地圖和激光雷達(dá),全車的傳感器有 8 枚攝像頭和 1 個(gè)毫米波雷達(dá)。從幾年的成果來(lái)看,無(wú)論是實(shí)際效果還是功能豐富程度,特斯拉在量產(chǎn)自動(dòng)駕駛行列中一直處于頭部。
▲特斯拉希望僅使用視覺傳感器完成自動(dòng)駕駛
Andrej 說(shuō)道:“特斯拉已經(jīng)把其他傳感器(激光雷達(dá))‘掃進(jìn)了塵?!小!?/p>
與此同時(shí),特斯拉沒(méi)有停止前進(jìn)的腳步。今年 5 月開始,特斯拉開始生產(chǎn)移除毫米波雷達(dá)的 Model 3 和 Model Y 車型,讓車輛的自動(dòng)駕駛感知徹底轉(zhuǎn)向純視覺。
Andrej 給出的理由是:你已經(jīng)不再需要毫米波雷達(dá)了。
他還引用了馬斯克此前的一條推文,推文中說(shuō),如果毫米波雷達(dá)和視覺感知的結(jié)果不一致,你更傾向于相信誰(shuí)?
▲馬斯克推特
Andrej 表示,從人們的主觀感受上,多傳感器會(huì)更加精準(zhǔn)。不過(guò),毫米波雷達(dá)感知數(shù)據(jù)中的噪音實(shí)際上拖累了整個(gè)自動(dòng)駕駛系統(tǒng)的判斷。
特斯拉早已認(rèn)識(shí)到了這一點(diǎn),因此取消毫米波雷達(dá)只是時(shí)間問(wèn)題。
02. 20 人搞定純視覺感知 特斯拉甚至打造了世界第五超算
談到純視覺感知,人們最大的疑問(wèn)就是攝像頭感知的 2D 畫面,神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的深度、速度、加速度是否準(zhǔn)確呢?
Andrej 認(rèn)為,當(dāng)人類駕駛時(shí),人眼所看到的畫面也是 2D 的,但是人腦的神經(jīng)網(wǎng)絡(luò)能夠計(jì)算出距離。因此,如果機(jī)器的神經(jīng)網(wǎng)絡(luò)模擬人腦,也就能夠計(jì)算出深度、速度、加速度。
并且,經(jīng)過(guò)幾個(gè)月的研發(fā),特斯拉已經(jīng)能夠證明這條路線是可行的。
例如,在擁堵路段,前方車輛走走停停,距離、速度、加速度都會(huì)實(shí)時(shí)變化,如果能夠始終追蹤正前方的車輛,判斷將會(huì)非常精準(zhǔn)。但是毫米波雷達(dá)并非如此,毫米波雷達(dá)的感知具有比較大的隨機(jī)性,可能感知到其他物體,并產(chǎn)生一個(gè)錯(cuò)誤數(shù)據(jù)。
最終,毫米波雷達(dá)不確定的感知數(shù)據(jù)會(huì)讓傳感器融合變得非常困難。
決定采用純視覺感知的特斯拉有三個(gè)需求,第一是大量的視頻數(shù)據(jù),百萬(wàn)段規(guī)模的視頻;第二是干凈的數(shù)據(jù),包括對(duì)物體標(biāo)簽化,并且擁有深度、速度、加速度信息;第三是多樣化的數(shù)據(jù),大量的邊緣案例。
此后,特斯拉需要在此基礎(chǔ)上訓(xùn)練一個(gè)足夠大的神經(jīng)網(wǎng)絡(luò)。
在數(shù)據(jù)標(biāo)簽化階段,特斯拉采用數(shù)據(jù)自動(dòng)標(biāo)記數(shù)據(jù)的方法,當(dāng)車輛感知周圍環(huán)境后,用自動(dòng)駕駛電腦本地處理數(shù)據(jù)。上傳至服務(wù)器之后,如有不精準(zhǔn)之處,也能用人工的方式清理、驗(yàn)證數(shù)據(jù)。
▲特斯拉自動(dòng)數(shù)據(jù)標(biāo)簽化
同時(shí),在實(shí)際使用中,特斯拉的自動(dòng)標(biāo)簽化的方法還能夠應(yīng)對(duì)沙塵、雨、霧、雪等極端天氣。
Andrej 介紹,在過(guò)去四個(gè)月時(shí)間里,特斯拉的研發(fā)人員總結(jié)出了 221 個(gè)收集數(shù)據(jù)的觸發(fā)條件,Andrej 在演講中展示了其中一部分,其中包括視覺、雷達(dá)傳感器不匹配,視頻出現(xiàn)抖動(dòng),監(jiān)測(cè)到畫面閃爍等等。
▲特斯拉總結(jié)的 221 項(xiàng)數(shù)據(jù)收集觸發(fā)條件(部分)
同樣在過(guò)去四個(gè)月時(shí)間里,特斯拉完成了廣泛的數(shù)據(jù)收集,最終在特斯拉數(shù)據(jù)引擎中完成了七種影子模式和七個(gè)循環(huán)的驗(yàn)證。
Andrej 說(shuō)道:“最開始,我們用視頻數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò),訓(xùn)練之后分發(fā)到特斯拉汽車的影子模式中。在車輛端,需要不斷驗(yàn)證神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確性。如果在行駛中出現(xiàn)了 221 個(gè)觸發(fā)條件中的一個(gè),系統(tǒng)就會(huì)自動(dòng)收集視頻片段,自動(dòng)標(biāo)簽化物體之后合并至一個(gè)訓(xùn)練集中。我們一遍又一遍重復(fù)這個(gè)循環(huán),讓神經(jīng)網(wǎng)絡(luò)變得越來(lái)越好?!?/p>
▲特斯拉數(shù)據(jù)引擎
在完成七輪影子模式的循環(huán)驗(yàn)證之后,特斯拉一共處理了 100 萬(wàn)條 10 秒短視頻,這些視頻全部來(lái)自特斯拉車身拍攝的畫面。同時(shí),特斯拉為 60 億個(gè)物體做了標(biāo)簽化處理,同時(shí)包含精準(zhǔn)的深度和速度信息。這些數(shù)據(jù)一共有 1.5PB,可以說(shuō)非常龐大了。
Andrej 說(shuō)道:“處理這些數(shù)據(jù)的核心團(tuán)隊(duì)只有 20 人?!?/p>
通過(guò)一個(gè)框圖能夠解釋為什么 20 人的團(tuán)隊(duì)能夠處理如此多的數(shù)據(jù)。
Andrej 說(shuō)道:“在框圖上部,攝像頭感知的畫面輸入,圖像解壓后就會(huì)進(jìn)行數(shù)據(jù)融合處理。首先會(huì)在攝像頭上融合信息,然后在所有時(shí)間上融合信息。利用 Transformer 架構(gòu)、循環(huán)神經(jīng)網(wǎng)絡(luò),或者直接用 3D 卷積,都能夠取得很好的效果。在融合完成之后,又會(huì)形成分支,分離成為主干,再次分離形成終端。”
▲神經(jīng)網(wǎng)絡(luò)架構(gòu)
為什么要不斷分離形成終端呢?Andrej 解釋道,研發(fā)人員可能對(duì)大量的輸出結(jié)果感興趣,但是不可能用一個(gè)神經(jīng)網(wǎng)絡(luò)單獨(dú)輸出每一項(xiàng)結(jié)果。同時(shí),分支結(jié)構(gòu)的另一個(gè)好處是它在終端解耦所有信號(hào),所以當(dāng)研發(fā)人員正在處理特定對(duì)象的速度、加速度等信息時(shí),就能夠擁有小神經(jīng)網(wǎng)絡(luò),不用觸及其他信號(hào)就能完成工作。
最終結(jié)果是,這種架構(gòu)能讓工作效率更高。因?yàn)檠邪l(fā)人員一直都在微調(diào)終端結(jié)果,從骨干到終端的修改則是偶爾進(jìn)行。
要處理如此多的數(shù)據(jù),特斯拉搭建了一個(gè)世界排名第五的超級(jí)計(jì)算機(jī)。
▲特斯拉超級(jí)計(jì)算機(jī)
這個(gè)集群使用了 720 個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn) 8 個(gè)英偉達(dá) A100 Tensor Core GPU(共 5760 個(gè) GPU),實(shí)現(xiàn)了 1.8 exaflops 的性能。
▲英偉達(dá) A100 Tensor Core GPU
這個(gè)超級(jí)計(jì)算機(jī)采用 10PB NVME 存儲(chǔ),讀寫速度能夠達(dá)到 1.6TB/s。Andrej 介紹,這可能是全世界最快的數(shù)據(jù)存儲(chǔ)設(shè)備。
未來(lái),特斯拉會(huì)讓這臺(tái)超級(jí)電腦運(yùn)行 Dojo 項(xiàng)目,特斯拉希望通過(guò) Dojo 不斷訓(xùn)練其神經(jīng)網(wǎng)絡(luò),幫助特斯拉 Autopilot 不斷進(jìn)化。
03. 純視覺優(yōu)勢(shì)凸顯 270 萬(wàn)公里自動(dòng)駕駛 0 事故
在轉(zhuǎn)向純視覺感知后的特斯拉,效果如何呢?Andrej 舉出三個(gè)典型案例。
第一個(gè)案例是前方車輛快速剎車時(shí),視覺傳感器和毫米波雷達(dá)出現(xiàn)了截然不同的表現(xiàn)。
圖中黃色線條代表毫米波雷達(dá)感知的距離、速度、加速度圖像(從上至下),藍(lán)色線條代表純視覺傳感器的感知結(jié)果??梢园l(fā)現(xiàn),毫米波雷達(dá)在其中有多次出現(xiàn)距離突然降低為 0、速度突然提升、加速度突然為 0 的情況。
▲前車緊急制動(dòng)時(shí),兩種傳感器感知效果對(duì)比
這是因?yàn)橥蝗粶p速之后,毫米波雷達(dá)并不能很好追蹤前方車輛,因此多次重啟,就像是車輛在短時(shí)間內(nèi)重復(fù)消失,又出現(xiàn)了 6 次,這很可能誤導(dǎo)自動(dòng)駕駛系統(tǒng)。
由純視覺傳感器感知的信息和毫米波雷達(dá)的信息大致重合,但是沒(méi)有出現(xiàn)距離、速度、加速度突變的情況,表現(xiàn)非常穩(wěn)定。
第二個(gè)案例是路上常見的立交橋。由于毫米波雷達(dá)沒(méi)有垂直分辨率,所以會(huì)認(rèn)為立交橋是一個(gè)靜止在前方的物體。
▲車輛感知到橋梁認(rèn)為是靜止物體,采取制動(dòng)措施
傳感器感知數(shù)據(jù)融合之后,車輛認(rèn)為行駛前方存在靜止物體,并判斷緊急剎車。這種情況在高速公路上十分危險(xiǎn)。
第三個(gè)案例是行駛前方出現(xiàn)一輛停靠路邊的大貨車。此時(shí),毫米波雷達(dá)無(wú)法判斷前方究竟是一輛車還是一個(gè)普通的靜止物體。因此,毫米波雷達(dá)將這項(xiàng)任務(wù)交給視覺傳感器,最終在距離車輛 110 米的距離時(shí),才感知到前方的卡車。
▲毫米波雷達(dá)感知距離不如攝像頭
如果用純視覺傳感器,在 180 米的距離時(shí)感知到了前方的貨車,并從 145 米處有明確的感知信息,開始減速。
顯然,純視覺傳感器的表現(xiàn)再次勝過(guò)毫米波雷達(dá) + 視覺傳感器的融合模式。
Andrej 介紹,類似的場(chǎng)景特斯拉一共總結(jié)了 6000 個(gè),可以分 70 個(gè)類別。這些場(chǎng)景每天都會(huì)運(yùn)行,不斷提升神經(jīng)網(wǎng)絡(luò)的能力。除此之外,特斯拉還用仿真測(cè)試的方式,建立了 1 萬(wàn)個(gè)場(chǎng)景,不斷測(cè)試。這些測(cè)試數(shù)據(jù)相當(dāng)于人類 10 年的駕駛時(shí)間。
同時(shí),特斯拉也將純視覺感知加入到影子模式的測(cè)試中,經(jīng)過(guò)七輪影子模式的測(cè)試,已經(jīng)相當(dāng)于人類 1000 年的駕駛時(shí)間。
在發(fā)布之前,特斯拉已經(jīng)進(jìn)行了 1500 萬(wàn)英里(約合 2400 萬(wàn)公里)的駕駛里程,其中 170 萬(wàn)英里(約合 274 萬(wàn)公里)都處于自動(dòng)駕駛狀態(tài),目前沒(méi)有出現(xiàn)過(guò)任何一起事故。
Andrej 也承認(rèn),一些遺留的堆棧還存在一些問(wèn)題,每隔大約 500 萬(wàn)英里就會(huì)出現(xiàn)一次崩潰問(wèn)題。但他相信,這些問(wèn)題會(huì)被逐漸解決。
在演講的最后,Andrej 說(shuō)道:“純視覺能夠精準(zhǔn)感知深度、速度、加速度信息。實(shí)現(xiàn)純視覺是一件困難的事情,并且需要大量的數(shù)據(jù),不過(guò)純視覺的方向至少是正確的?!?/p>
04. 結(jié)語(yǔ):純視覺感知并非毫無(wú)道理
2021 年將是激光雷達(dá)量產(chǎn)上車之年,今年不少重磅車型都將搭載激光雷達(dá),期待實(shí)現(xiàn)更好的 L2 級(jí)自動(dòng)駕駛。與此同時(shí),特斯拉今年甚至取消了毫米波雷達(dá),用純視覺做 L2 級(jí)自動(dòng)駕駛,這在業(yè)內(nèi)引發(fā)不小爭(zhēng)議,也成為行業(yè)內(nèi)的熱議話題。
聽過(guò)特斯拉 AI 高級(jí)總監(jiān) Andrej Karpathy 的演講之后,相信在會(huì)讓人們一定程度上相信純視覺可被執(zhí)行,自動(dòng)駕駛行業(yè)內(nèi)的這一爭(zhēng)議將變?yōu)榻Y(jié)果導(dǎo)向。如果自動(dòng)駕駛能夠做得好,方向就是正確的。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。