近期,全新生成式視頻大模型Sora甫一發(fā)布,便迅速引發(fā)全球熱議。有專家甚至斷言,人工智能在2024年將呈現(xiàn)爆發(fā)式增長。
如今,人工智能的“觸角”正向四面八方探伸,汽車行業(yè)便在最前沿。從去年言必稱“BEV+Transformer”,到今年將“端到端”掛在嘴邊……隨著人工智能技術(shù)從深度學(xué)習(xí)到多模態(tài)大模型的快速發(fā)展,汽車行業(yè)始終站在了自動駕駛技術(shù)進(jìn)化的第一線。
這些看似陌生又深奧的新技術(shù),對于自動駕駛落地到底意味著什么?它們在汽車上應(yīng)用,對企業(yè)研發(fā)能力提出哪些更高的要求?厘清上述問題,對于自動駕駛行業(yè)如何用好人工智能而言十分必要。
“端到端”或成智駕的未來
今年年初,小鵬汽車對外透露,其高階智駕將采用端到端大模型。小鵬汽車董事長何小鵬提到,團(tuán)隊發(fā)現(xiàn)應(yīng)用大模型后,無需從前的大量泛化代碼,自動駕駛系統(tǒng)便具備時空理解能力,能讀懂文字信息,有了時間觀念,理解不同城市特點的交通元素,做出更擬人的決策。
另據(jù)了解,理想汽車圍繞車載場景打造的MindGPT大模型已隨OTA5.0正式上車。蔚來汽車則將端到端大模型聚焦于智能汽車主動安全領(lǐng)域。相關(guān)人士表示,蔚來幾十人的團(tuán)隊已就此研發(fā)近半年的時間,如果順利推進(jìn),蔚來將是中國最快量產(chǎn)端到端功能的汽車企業(yè)。2023年,CVPR最佳論文頒給了端到端自動駕駛。在汽車行業(yè)人士看來,這幾乎代表著一種共識:端到端自動駕駛將是行業(yè)的未來。
為什么“端到端”這么火?顧名思義,在機(jī)器學(xué)習(xí)中,端到端就是從提出問題到解決問題,從輸入數(shù)據(jù)到輸出結(jié)果的過程。通過端到端的學(xué)習(xí)和訓(xùn)練,人們期望只要輸入數(shù)據(jù),就可以得到最匹配、最合適、最優(yōu)的結(jié)果。換句話說,就是從客戶需求端出發(fā),抵達(dá)滿足客戶需求的“彼岸”。
2023年8月,特斯拉首席執(zhí)行官馬斯克在做FSDBetaV12試駕直播時,重點介紹說“這是世界上第一個端到端AI自動駕駛系統(tǒng)”,首次將端到端大模型的概念引入自動駕駛。他表示:“V12系統(tǒng)從頭到尾都是通過AI實現(xiàn)。我們沒有編程,沒有程序員寫一行代碼以識別道路、行人等,全部交給了神經(jīng)網(wǎng)絡(luò)?!?/p>
端到端大模型究竟如何給自動駕駛帶來改變?據(jù)悉,傳統(tǒng)的自動駕駛按照感知、決策和控制劃分為不同的模塊,系統(tǒng)先對周圍的動靜態(tài)交通參與者和路網(wǎng)結(jié)構(gòu)進(jìn)行準(zhǔn)確感知,再規(guī)劃車輛的行車軌跡,最后通過執(zhí)行機(jī)構(gòu)對進(jìn)行閉環(huán)控制。而從特斯拉的端到端方案來看,它將自動駕駛系統(tǒng)的感知和定位、決策和規(guī)劃、控制和執(zhí)行之間的斷面整合在了一起,形成一個大的神經(jīng)網(wǎng)絡(luò)。
端到端模型背后,是對海量駕駛視頻片段的整合、壓縮和提取。本質(zhì)上,特斯拉的端到端FSD是將上千萬個視頻片段包含的人類駕駛知識壓縮到了端到端神經(jīng)網(wǎng)絡(luò)參數(shù)中。
俗話說“書讀百遍其義自見”,可以想象一下,隨著人工智能技術(shù)突飛猛進(jìn),當(dāng)被“投喂”大量包含各種駕駛行為的經(jīng)歷素材包后,自動駕駛系統(tǒng)培養(yǎng)出類似于人類的思維和執(zhí)行方式也不足為奇了。換言之,通過對人類行為的大量學(xué)習(xí),來耦合出更接近人類自然的駕駛習(xí)慣,比如過人行道減速,并線要讓行等。這些模型的構(gòu)建方式是基于特斯拉純視覺方案實現(xiàn)AI的自訓(xùn)練,因此訓(xùn)練視頻的質(zhì)量非常重要,只能用優(yōu)秀司機(jī)的駕駛視頻來訓(xùn)練,而非反之。曾有車企分享案例,端到端自動駕駛還模擬出在沒有車位的停車場“自行”劃出車位的行為。
如今,汽車自動駕駛技術(shù)的滲透率不斷提高,海量真實數(shù)據(jù)開始為車企訓(xùn)練模型提供充分養(yǎng)料,2024年行業(yè)或?qū)⒂瓉矶说蕉舜竽P吐涞亍霸辍薄_@意味著,自動駕駛的感知能力和泛化能力有望實現(xiàn)飛躍式提升。
AI助力傳感器融合難題解決
如果說端到端大模型是自動駕駛新晉“頂流”,那么BEV+Transformer可以算得上它的“前輩”。據(jù)了解,BEV和“端到端”都是在視覺路線上,以Transformer為基礎(chǔ)建設(shè)架構(gòu)。AI大模型的崛起源自ChatGPT,其中“T”指的就是Transformer大模型。
BEV的出現(xiàn),如“四兩撥千斤”般解決了多傳感器融合難題。清華大學(xué)蘇州汽車研究院智能網(wǎng)聯(lián)中心技術(shù)總監(jiān)孫輝指出,BEV算法將各種傳感器信息統(tǒng)一映射到世界坐標(biāo)系下,支持不同類型傳感器數(shù)據(jù)的互補(bǔ),不僅將感知融合從后融合推進(jìn)到前融合,還為端到端方案打下了堅實基礎(chǔ)。之后,在BEV基礎(chǔ)上發(fā)展的占據(jù)柵格算法,進(jìn)一步拓展了對一般障礙物(各類動靜態(tài)障礙)檢測的能力,使自動駕駛汽車具備了更好的安全避障功能。
端到端自動駕駛方案,是在BEV基礎(chǔ)上將軌跡預(yù)測、柵格地圖預(yù)測、行為規(guī)劃等通過神經(jīng)網(wǎng)絡(luò)的形式疊加,使用大數(shù)據(jù)監(jiān)督學(xué)習(xí)來替代復(fù)雜人工規(guī)則的設(shè)計,進(jìn)而簡化整個自動駕駛開發(fā)流程,加快迭代效率。
毫末智行首席執(zhí)行官顧維灝認(rèn)為,自動駕駛技術(shù)過去20年的發(fā)展歷程可劃分為以硬件驅(qū)動為特征的“1.0”時代,以軟件驅(qū)動為特征的“2.0”時代,以數(shù)據(jù)驅(qū)動為特征的“3.0”時代。其中,“1.0”時代以早期無人駕駛車輛為代表,比拼傳感器特別是激光雷達(dá)的數(shù)量和線束精度,數(shù)據(jù)積累在數(shù)百萬公里;“2.0”時代以深度學(xué)習(xí)技術(shù)上車為標(biāo)志,車規(guī)級傳感器大量上車,但更注意車端感知算法和人工規(guī)則為主的決策模型優(yōu)化,數(shù)據(jù)積累在千萬公里以上;“3.0”時代以AI大模型在自動駕駛領(lǐng)域的應(yīng)用為標(biāo)注,以數(shù)據(jù)驅(qū)動方式來訓(xùn)練感知、認(rèn)知模型使之進(jìn)化。因此,自動駕駛企業(yè)將重點投入數(shù)據(jù)通道和智算中心的打通和建設(shè),以更高效地獲取數(shù)據(jù),并將它們轉(zhuǎn)化為能力與知識?!?.0”時代所對應(yīng)的數(shù)據(jù)規(guī)模,駕駛里程至少在上億乃至數(shù)十億公里以上。
孫輝告訴記者,從大的方向來看,自動駕駛的發(fā)展路線,除了單車智能化水平的進(jìn)階,還包括從單車智能向車路協(xié)同智能轉(zhuǎn)變。2024版中國新車評價規(guī)程首次將V2X納入測評范圍,為V2X的發(fā)展帶來更大的利好。車路協(xié)同通過路側(cè)單元向車輛發(fā)送超視距感知結(jié)果,提前規(guī)劃從而避免事故;在固定區(qū)域應(yīng)用時,由于路側(cè)設(shè)施的補(bǔ)充,還能降低單車智能化成本,提前完成運(yùn)營閉環(huán)。如果在限定區(qū)域內(nèi),這也不失為高階智駕的一種實現(xiàn)方式。
大模型正在催生算力工程
雖然“端到端”和BEV都是基于Transformer開發(fā)的架構(gòu),但業(yè)內(nèi)人士普遍認(rèn)為,“端到端”的上限會更高,通過數(shù)據(jù)驅(qū)動能夠解決復(fù)雜“長尾”問題,消除模塊累計誤差,還能降低成本。
不過,“硬幣總是有兩面”,端到端大模型為自動駕駛帶來的不只機(jī)遇,還有更多挑戰(zhàn)。在孫輝看來,端到端作為數(shù)據(jù)驅(qū)動的新型自動駕駛方案,數(shù)據(jù)采集和標(biāo)注的體量一定要達(dá)到相當(dāng)?shù)囊?guī)模才能實施,同時對研發(fā)人員及算力也有更高的要求,具有很高的進(jìn)入門檻。當(dāng)然,從產(chǎn)品落地來說,端到端方案可以更充分地發(fā)揮車載算力資源的作用,呈現(xiàn)產(chǎn)品層次梯度。
人們不難發(fā)現(xiàn),大模型正在催化駕駛場景復(fù)雜多樣。去年以來,城市NOA加速落地。從高速NOA到城市NOA,交通環(huán)境的復(fù)雜度加大,對物體識別、感知融合和系統(tǒng)決策算力的需求不斷提高。更重要的是,自動駕駛?cè)源嬖诖罅俊伴L尾”應(yīng)用需求,例如對匝道、錐形筒、交通事故、坑洼道路進(jìn)行識別等。各種“長尾”問題不能靠單一技術(shù)路徑解決,需要集中的大規(guī)模算力基礎(chǔ)設(shè)施——AI智算中心。
從2022年開始,國內(nèi)外自動駕駛企業(yè)上演算力“追逐戰(zhàn)”。特斯拉自研的超級計算機(jī)Dojo,被用來訓(xùn)練神經(jīng)網(wǎng)絡(luò),支持自身的自動駕駛技術(shù)發(fā)展;國內(nèi)方面,小鵬、毫末、吉利等企業(yè)也開始自建算力中心。其中,小鵬汽車在內(nèi)蒙古烏蘭察布建成自動駕駛智算中心“扶搖”;吉利星睿智算中心在浙江湖州長興正式揭牌;毫末智行發(fā)布自動駕駛智算中心“雪湖·綠洲”,全部用于自動駕駛模型訓(xùn)練。
自動駕駛走過“1.0”和“2.0”時代,如今步入新階段。圍繞大模型訓(xùn)練的云端算力平臺,以及與車端多模態(tài)、多數(shù)量、高質(zhì)量傳感器和車端算法適配的高算力計算平臺紛紛落地,不少車企和自動駕駛供應(yīng)商建立自己的算力中心,從理論上可支持完全自動駕駛級別的算力要求。
雖然技術(shù)會突飛猛進(jìn),但“神功還需一重一重修煉”。市場端對于自動駕駛落地的理性認(rèn)知,成就了一番行業(yè)新風(fēng)貌。放棄L4自動駕駛一步到位的想法,不少企業(yè)將首要目標(biāo)放在L2+自動駕駛的商業(yè)化落地上。今年初,多家車企啟動城市NOA開城“競速賽”,爭相推廣主打“極致性價比”的高階智駕方案。在這個過程中,無論“端到端”,還是BEV+Transformer都在提供助力;與此同時,更多的車輛行駛數(shù)據(jù),也將反哺自動駕駛?cè)斯ぶ悄芗夹g(shù)日臻完善。
自動駕駛還需“長期主義”
在汽車產(chǎn)業(yè)變革的“下半場”,自動駕駛技術(shù)研發(fā)與落地已成為企業(yè)參與競爭的關(guān)鍵“參數(shù)”和重要抓手。凱聯(lián)資本研究院院長由天宇向記者表示,那些跑通端到端大模型的車企,無疑搶先站上了“風(fēng)口”。
“自動駕駛行業(yè)的競爭日趨白熱化,想要在市場上擁有為之一戰(zhàn)的能力,企業(yè)離不開AI這個重要幫手?!睂O輝肯定了AI大模型對于自動駕駛技術(shù)的助力。他認(rèn)為,AI滲透下的自動駕駛“主戰(zhàn)場”將出現(xiàn)一家或幾家獨大的局面,企業(yè)不可避免地朝著技術(shù)規(guī)?;慨a(chǎn)前進(jìn),嘗試“以戰(zhàn)養(yǎng)戰(zhàn)”,從而快速迭代,否則就會被淘汰。在細(xì)分“賽道”上,隨著具身智能的發(fā)展,自動駕駛還將迎來一輪新的發(fā)展機(jī)遇,出現(xiàn)一批面向垂直應(yīng)用的優(yōu)秀企業(yè),展現(xiàn)出“百花齊放”的局面?!皩τ谧詣玉{駛企業(yè)來說,在回歸理性、‘新芽’初生的這段時期,還需提高產(chǎn)品落地能力,此外增強(qiáng)對前瞻技術(shù)的敏銳性也非常關(guān)鍵?!彼Q。
在由天宇看來,從更高維度、更長周期來看,自動駕駛技術(shù)一直在進(jìn)步,并且將繼續(xù)演進(jìn),無論BEV還是端到端都只是整個發(fā)展過程中所經(jīng)歷的一部分。他直言,在端到端大模型成為“新寵”的當(dāng)下,也只有少數(shù)企業(yè)有實力跟進(jìn)新技術(shù),大部分企業(yè)仍處于觀望狀態(tài),至于后期是否跟隨,一方面要考量端到端落地成果如何,另一方面還要考察是否還有更新的技術(shù)出現(xiàn)。前瞻技術(shù)固然有其優(yōu)勢和發(fā)展?jié)摿?,但盲目跟風(fēng)并不適合汽車產(chǎn)業(yè)。自動駕駛企業(yè)應(yīng)冷靜看待新技術(shù)的崛起,雖然“端到端”被認(rèn)為具有更多可能性,但如果只進(jìn)行高速NOA以下級別的自動駕駛,沒有必要投入為此投入過多人力、物力,BEV+Transformer足夠支撐目前L2+自動駕駛的需求,尤其是車企都在追求技術(shù)量產(chǎn)落地的今天,性價比是首先要考慮的因素。
自動駕駛技術(shù)路線的進(jìn)化仍在路上,未來還將迎來何種“奇遇”誰也不敢斷言,但有一點可以確定,發(fā)展自動駕駛必須堅持“長期主義”。在這一共識下,車企之間或許不僅要比拼誰走得更快,更要笑看誰走得更遠(yuǎn)。
鄭重聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,目的在于傳播更多信息,與本站立場無關(guān)。僅供讀者參考,并請自行核實相關(guān)內(nèi)容。