原文標(biāo)題:《出租司機(jī)先別慌,智駕行業(yè)的程序員們會(huì)更早被 AI 搶飯碗》
智能駕駛的 「GPT 時(shí)刻」已經(jīng)來(lái)過(guò)了?
作者 | 曹思頎
編輯 | 靖宇
每項(xiàng)新技術(shù)從誕生到推廣,會(huì)經(jīng)歷各個(gè)不同的階段,也會(huì)面臨各種不同的聲音。研發(fā)者為了找到技術(shù)最優(yōu)解,可能會(huì)放棄已有多年的努力;而商業(yè)機(jī)構(gòu)則更偏重于判斷技術(shù)落地的時(shí)機(jī),以在合適的時(shí)機(jī)謀取最大的利益。
關(guān)于智能駕駛,國(guó)內(nèi)各主機(jī)廠商們就一度有過(guò)很深的認(rèn)知分歧。支持者認(rèn)為它可以帶來(lái)「遙遙領(lǐng)先」的體驗(yàn),而反對(duì)者則拋出過(guò)「臭搞技術(shù)的」、「自動(dòng)駕駛都是忽悠」等言論以表達(dá)不屑。
2024 年,隨著基于「端到端」的特斯拉智能駕駛軟件 FSD V12 版本正式推送,中國(guó)汽車廠商們對(duì)智能駕駛的態(tài)度,終于開始收斂了。
以新勢(shì)力造車代表蔚小理為例,各家對(duì)于「端到端」技術(shù)的追逐顯然開始發(fā)力了。
小鵬提出將端到端的大模型引入智駕系統(tǒng),并表示今年要在智能化和訓(xùn)練數(shù)據(jù)上投入 42 億元,目標(biāo)是以后可以做到「兩天一次內(nèi)部 OTA」。這是過(guò)去依靠人類維護(hù)數(shù)十萬(wàn)行智能駕駛代碼的工作方式所不敢想象的效率提升。
蔚來(lái)也于近期重組了智能駕駛研發(fā)部,將傳統(tǒng)的感知和規(guī)控團(tuán)隊(duì)合并為大模型團(tuán)隊(duì),核心也是推動(dòng)基于神經(jīng)網(wǎng)絡(luò)的范式迭代。
甚至過(guò)去被調(diào)侃為「摳廠」的理想,也在近期頻繁為智能化研發(fā)造勢(shì)。CEO 李想親自為「端到端」研發(fā)站臺(tái),搬出諾貝爾經(jīng)濟(jì)學(xué)家的快慢思考理論,以說(shuō)明自家團(tuán)隊(duì)找到了解決自動(dòng)駕駛 corner case 的方向。
那么,讓各家廠商從非共識(shí)走向共識(shí)的端到端,為什么會(huì)有這么大的魔力?它如何改變了智能駕駛行業(yè)的范式,又將帶來(lái)怎樣的機(jī)遇和調(diào)整?
01、智駕的 GPT 時(shí)刻已經(jīng)來(lái)了
國(guó)內(nèi)各廠商們迅速形成共識(shí)的重要原因,是特斯拉率先交出了一份讓人羨慕的端到端答卷。
今年 3 月,特斯拉正式推送了智能駕駛軟件 FSD V12.3 版本。這個(gè)版本的最大改變,就是把整個(gè)智駕系統(tǒng)工作的動(dòng)力,從人類編寫的代碼,切換成了基于神經(jīng)網(wǎng)絡(luò)的 AI 大模型。馬斯克用「Video in to Control out」來(lái)形容這種新的工作范式,即:AI 根據(jù)自己「看」到的路面信息,直接輸出駕駛操作,也就是業(yè)界常說(shuō)的「端到端」(End-to-End)。
上個(gè)月,何小鵬在加州體驗(yàn)了 FSD V12.3.6 版本。用他的話來(lái)說(shuō),F(xiàn)SD「很多路況處理都很絲滑」。這正是 AI 神經(jīng)網(wǎng)絡(luò)相比于代碼驅(qū)動(dòng)的最大優(yōu)勢(shì)所在:在不同城市、不同路況下,大幅提高智駕系統(tǒng)的泛化學(xué)習(xí)能力。
翻譯成國(guó)內(nèi)消費(fèi)者們更熟悉的廣告營(yíng)銷話術(shù)就是:全國(guó)(全球)都能開。
當(dāng)然,這個(gè)結(jié)論在現(xiàn)階段還只是一個(gè)美好的心愿。在實(shí)際操作過(guò)程中,還需要數(shù)據(jù)、算法、算力等 AI 基礎(chǔ)設(shè)施的全力加持和訓(xùn)練,才可能接近「AI 變得和人類駕駛員一樣聰明」這個(gè)目標(biāo)。
但對(duì)于同行們來(lái)說(shuō),F(xiàn)SD V12 版本意義重大。它驗(yàn)證了神經(jīng)網(wǎng)絡(luò)真的可以取代人類編寫的代碼,甚至可以做得更好更高效。
這意味著不用再等 N 年,智能駕駛行業(yè)里的 ChatGPT 時(shí)刻其實(shí)已經(jīng)到來(lái)了。想想阿里張勇曾經(jīng)說(shuō)過(guò)的那句話:所有軟件都值得用 AI 重做一遍。FSD V12 正是給了同行一個(gè)新的方向和信心:所有智駕的技術(shù)棧,都可以用端到端重做一遍。
在 FSD V12 beta 版本發(fā)布的時(shí)候,馬斯克說(shuō)過(guò),這一版本把前一版本的 30 萬(wàn)行代碼壓縮到了 2000 行,相當(dāng)于不到百分之一的水平。
新技術(shù)棧里的智駕比拼,不會(huì)演變?yōu)楸日l(shuí)人更多的反創(chuàng)新內(nèi)卷游戲。如果 AI 的效率真能達(dá)到何小鵬所說(shuō)的兩天一次內(nèi)部 OTA,那逐條寫規(guī)則、改 bug 的人海戰(zhàn)術(shù)就可以宣布徹底過(guò)時(shí)。
所以智駕行業(yè)還需要那么多程序員嗎?筆者無(wú)法給出準(zhǔn)確的答案,但可以肯定的是,智駕程序員的工作內(nèi)容也將發(fā)生一系列改變。只會(huì)寫 if else 規(guī)則的程序員,大概率會(huì)早于出租車、網(wǎng)約車司機(jī)們被 AI 取代。
02、困在數(shù)據(jù)里
在投資機(jī)構(gòu)辰韜資本上個(gè)月發(fā)布的《端到端自動(dòng)駕駛行業(yè)研究報(bào)告》中,30 余位自動(dòng)駕駛行業(yè)受訪者,只有 13% 表示對(duì)端到端技術(shù)持相對(duì)謹(jǐn)慎的「觀望」態(tài)度,其余均表達(dá)了更積極的「預(yù)研」甚至「全力投入」的態(tài)度。端到端已經(jīng)在行業(yè)從業(yè)者里成為了共識(shí)。
但事實(shí)上,目前還沒(méi)有任何一家企業(yè)(包括特斯拉在內(nèi)),可以做到「原教旨主義端到端」。也就是把自動(dòng)駕駛的所有環(huán)節(jié)都集中在同一個(gè)大的模型里,真正達(dá)到和人類一樣的「輸入視覺(jué)信號(hào),輸出踏板和方向盤操作」。
大部分國(guó)內(nèi)主機(jī)廠現(xiàn)階段所做的核心努力,是打通感知和決策模塊。這其中的關(guān)鍵,就是取消模塊之間的人工定義結(jié)果,更多用特征向量傳遞無(wú)損信息。
在端到端之前,傳統(tǒng)自動(dòng)駕駛架構(gòu)來(lái)源于機(jī)器人領(lǐng)域,分為感知、規(guī)劃、控制等不同模塊。不同模塊由不同團(tuán)隊(duì)開發(fā),在模塊與模塊之間,主要通過(guò)人工定義的接口傳遞信息。舉個(gè)最簡(jiǎn)單的例子,對(duì)于車輛是否壓線行駛這個(gè)現(xiàn)象,在傳統(tǒng)感知模塊里就可以用最簡(jiǎn)單的計(jì)算機(jī)二進(jìn)制語(yǔ)言進(jìn)行表征。
而打通感知和決策模塊的最大好處,就是可以涵蓋更多現(xiàn)實(shí)世界中規(guī)則無(wú)法準(zhǔn)確描述的「灰度場(chǎng)景」。例如,當(dāng)你開車時(shí),并不需要知道前車精確的行駛速度,或者它是否壓線,只需要關(guān)注相對(duì)位置變化就好。
在這個(gè)基礎(chǔ)上,基于生成式 AI 的理論,期待神經(jīng)網(wǎng)絡(luò)模型也能在大量輸入后產(chǎn)生智能涌現(xiàn),成為 AI 智能體。
這一切的基礎(chǔ)都來(lái)源數(shù)據(jù),也就是「喂」給模型的訓(xùn)練素材。但是,和基于文字的語(yǔ)言大模型不同,智駕模型并不容易找到足夠的公開視頻數(shù)據(jù)作為訓(xùn)練素材。
前述《端到端自動(dòng)駕駛行業(yè)研究報(bào)告》顯示,目前規(guī)模最大的公開數(shù)據(jù)集只有 1200 小時(shí)數(shù)據(jù)。而根據(jù)馬斯克 2023 年的說(shuō)法,特斯拉在端到端的初期,就投入了近 4 萬(wàn)小時(shí)的視頻進(jìn)行訓(xùn)練。
相比其他車企,特斯拉數(shù)據(jù)的優(yōu)勢(shì)主要就在于量產(chǎn)車多。
目前,特斯拉在全球共交付了超過(guò) 600 萬(wàn)輛汽車,而在中國(guó)積極布局智駕的新勢(shì)力里,量產(chǎn)車的數(shù)量只是特斯拉的零頭。再加上一貫的極簡(jiǎn) SKU 和全量預(yù)埋的智駕硬件,讓數(shù)據(jù)收集變得更加容易。
國(guó)內(nèi)此前的常規(guī)做法,通常是依靠人工獲取道路信息。但是,要訓(xùn)練出一個(gè)聰明的端到端模型,也需要盡量涵蓋足夠多邊緣場(chǎng)景(conner case)的數(shù)據(jù)。由于邊緣場(chǎng)景的出現(xiàn)非常隨機(jī),有廠商曾經(jīng)表示,僅靠人工數(shù)據(jù)采集,只能得到大約 2% 的有限數(shù)據(jù)。
此外,和特斯拉相比,國(guó)內(nèi)廠商往往有著更復(fù)雜的 SKU。而不同車型之間,由于車輛尺寸、傳感器布局等不同,模型中的相關(guān)參數(shù)也需要重新進(jìn)行對(duì)齊。
以華為系為例,鴻蒙智行過(guò)去一年多的時(shí)間里展現(xiàn)出了極強(qiáng)的終端銷售能力,但對(duì)于華為車 BU 服務(wù)的不同品牌、不同型號(hào)的車型來(lái)說(shuō),端到端落地后仍然需要工程師進(jìn)行對(duì)齊和交付工作。對(duì)于有 2 個(gè)品牌 9 款車型的蔚來(lái)來(lái)說(shuō),同樣如此,他們把集成團(tuán)隊(duì)重組到了交付團(tuán)隊(duì)中。
有一種觀點(diǎn)是,以 Sora 為代表的文生視頻類產(chǎn)品有可能成為端到端模型的素材來(lái)源。但哪怕對(duì)馬斯克來(lái)說(shuō),用 AI 生成的內(nèi)容訓(xùn)練 AI,也還沒(méi)有得到公開認(rèn)可。畢竟數(shù)據(jù)的數(shù)據(jù)對(duì)于模型訓(xùn)練太重要了。要知道,一向?qū)θ肆Τ杀緲O致「摳門」的馬斯克,當(dāng)年也在紐約雇了 1000 人團(tuán)隊(duì),來(lái)為特斯拉的道路視頻數(shù)據(jù)進(jìn)行標(biāo)注。
03、別被馬斯克「帶溝里」
聽起來(lái),轉(zhuǎn)向端到端是一個(gè)自然而然的事,但刪除 30 萬(wàn)行代碼,對(duì)過(guò)往組織架構(gòu)打散重組,絕對(duì)不是一個(gè)容易做出的決定。事實(shí)上,連馬斯克也是半撞大運(yùn)的走上了這條路。那個(gè)在 2022 年底第一次向他提出要學(xué)習(xí) ChatGPT 搭建智能駕駛神經(jīng)網(wǎng)絡(luò)的工程師,差一點(diǎn)就被老馬調(diào)去解決 Twitter 收購(gòu)后的其他問(wèn)題了。
訓(xùn)出了端到端模型,相應(yīng)的支持體系(包括算力等)也要足夠高效。蔚來(lái)智能駕駛研發(fā)副總裁任少卿在接受《騰訊深網(wǎng)》采訪時(shí),表示如果沒(méi)有基本能力就強(qiáng)行上端到端,就等于在用「毒藥」。
他說(shuō):「如果你原來(lái)的代碼架構(gòu)足夠清晰,你的(debug)測(cè)試量可能只有 1%。原先你花三天重新測(cè) 1%,現(xiàn)在不好意思,你花三天要重測(cè) 100%。所以你的數(shù)據(jù)驗(yàn)證體系效率要足夠高?!?/p>
但是千萬(wàn)別直接被特斯拉帶到溝里,端到端此刻只是證明了它具備提高工作效率的可能,但并沒(méi)有證明它就是通往自動(dòng)駕駛的最終解法。
這一點(diǎn)和業(yè)界關(guān)于 Scaling Law 能否通向物理世界 AGI(通用人工智能)的認(rèn)知是一致的:可以肯定,生成式人工智能可以具備更高的智能,但是否可以理解物理規(guī)律,并在自動(dòng)駕駛、機(jī)器人等領(lǐng)域應(yīng)用,學(xué)界尚無(wú)定律。在《端到端自動(dòng)駕駛行業(yè)研究報(bào)告》,有超過(guò)一半的從業(yè)者不認(rèn)為端到端是自動(dòng)駕駛技術(shù)的終局解決方案。
對(duì)于自研智駕的主機(jī)廠來(lái)說(shuō),現(xiàn)階段最務(wù)實(shí)的做法,還是依托端到端讓智駕能力多快好省地落地。至于智駕軟件訂閱這件事,也許還需要更長(zhǎng)的路。畢竟在中國(guó)市場(chǎng)上,硬件往往比軟件和服務(wù)好賣。
當(dāng)然,大概率也沒(méi)有那么多人想成為馬斯克那樣的創(chuàng)新賭徒。放著好好的廉價(jià)車型不研發(fā),去豪賭 Robotaxi,發(fā)布一推遲市值能跌上千億美元。更多的普通玩家,只是希望搭載了端到端的智駕軟件,能幫助硬件賣得更好。當(dāng)然,如果還能順便賣得更貴,那就是最美妙的事了。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。