完成國內首次端到端智駕大模型路測，千掛科技實現(xiàn)「彎道超車」

2024-01-20 10:54:30 來源: 今日熱點網(wǎng)

2023年，由ChatGPT所掀起的大模型風潮正在席卷科技圈，它充分展現(xiàn)了全新的技術范式所帶來的想象力、潛能以及背后的生產(chǎn)效率提升。

這股技術浪潮席卷至自動駕駛，智能汽車作為一個能夠承載、實現(xiàn)前沿的理想超級智能終端，能夠最大限度地展現(xiàn)新技術范式所帶來的變革。

2023年8月，特斯拉以直播形式向外界展示FSD V12測試版，該版本基于完全的端到端輸出，真正實現(xiàn)了從「感知」到「決策」的全流程融入一個模型中，它成功走出依靠人工規(guī)則以外的技術通途，在全局視角下，展現(xiàn)出對感知、預測、規(guī)劃、控制和決策的高度統(tǒng)一，呈現(xiàn)出流暢的駕駛行為和卓越的體驗感。

當然，在這場新的技術范式變革里，參與者不止只有特斯拉；許多中國玩家們也朝著同一個突破口努力，貢獻自己的解題思路，甚至率先走向端到端技術應用的前沿。

自動駕駛的技術奇點時刻：「端到端智能駕駛大模型」

此前，證明自動駕駛的可落地性是整個自動駕駛行業(yè)需要回答的問題。

一方面，業(yè)界不斷減少激光雷達的數(shù)量，以無圖或輕圖的方式擺脫對高精度地圖的深度依賴，減少或擺脫以「堆料」的方式實現(xiàn)對外部的感知；另一方面，「漸進式」道路成為了業(yè)界的共識，以「高速」、「城區(qū)」等分區(qū)域落地的思路來證明自動駕駛的可實現(xiàn)性。

可以說，在端到端沒有到來之前的自動駕駛世界，是一個依靠天才工程師對于無數(shù)駕駛場景的觀察、歸納、提煉、總結的世界，同時也是一個依靠規(guī)則搭建的世界。這當中存在著一個殘酷的事實：場景是不能夠窮舉的。依靠人工規(guī)則對數(shù)據(jù)的總結提煉，不僅效率低而且泛化性差，這就導致了最后1%的長尾場景問題始終無法解決。

天才的工程師們始終在做打補丁的工作，縫縫補補一個由規(guī)則所搭建起來的世界，這樣的技術路線也導致自動駕駛的落地未如預期。

端到端技術的到來則有機會徹底改變這一局面，它打破了過去業(yè)界在開發(fā)自動駕駛系統(tǒng)時，感知與規(guī)劃分離，推翻一個由人為規(guī)則所搭建起來的世界。

這一明確的技術趨勢使得幾乎所有人都在賽跑：在美國，F(xiàn)SD12已進入用戶測試環(huán)節(jié)的特斯拉，是第一梯隊的排頭兵；而在中國，比亞迪投入4000人進行智能駕駛研發(fā)；理想也宣稱2024年端到端上車；而在剛剛結束的千掛科技2024年度產(chǎn)品發(fā)布會上，千掛科技公布了自己的端到端智能駕駛大模型在2023年底便已經(jīng)進入公開道路常態(tài)化的測試階段。從公開信息上來看，這是中國首個完成端到端智能駕駛大模型公開道路閉環(huán)測試的選手——而許多企業(yè)此時依然將端到端僅僅作為一個「未來的重要規(guī)劃」。

端到端的技術想象力究竟在哪里？在千掛科技聯(lián)合創(chuàng)始人葉璨博士看來，端到端智能駕駛大模型對于自動駕駛至少有三點重要的意義：

?第一點：端到端可以大幅提升數(shù)據(jù)的利用規(guī)模和效率，打破傳統(tǒng)自動駕駛研發(fā)當中，依靠人工規(guī)則對數(shù)據(jù)的總結提煉模式，解決效率低且泛化性差的痛點；

?第二點：端到端能夠對數(shù)據(jù)進行自動化學習，由模型取代規(guī)則，打破自動駕駛泛化性的瓶頸，能夠覆蓋更多的駕駛場景；

?第三點：在傳統(tǒng)自動駕駛當中，不同模塊都在關注和優(yōu)化自身的代理指標，而這些指標存在不一致，端到端能夠解決多模塊甚至全鏈路聯(lián)合優(yōu)化的問題。

另一方面，在這種全面learning化的AI系統(tǒng)之上，我們有機會將世界模型（world model）進一步引入自動駕駛系統(tǒng)中，復刻類似于GPT4.0 等大模型的模式，通過Transformer把海量的互聯(lián)網(wǎng)數(shù)據(jù)及對應的知識壓縮到模型參數(shù)當中，彌補現(xiàn)在自動駕駛系統(tǒng)對通用知識（world knowledge）的缺失。當自動駕駛系統(tǒng)擁有了先驗知識以后，就能迅速提高泛化和推理能力，包括對長尾物體的識別、對場景的深度理解、對駕駛任務的拆解規(guī)劃等，這些能力的提升使得自動駕駛有機會邁向一個更為廣闊的世界。

因此端到端所勾勒出的是一個全新的技術圖景，打開了全新的技術范式，開啟一個產(chǎn)業(yè)變革的契機。如果說，端到端智能駕駛大模型對于乘用車而言，是一個體驗上的升級；那么，端到端智能駕駛大模型對于干線物流而言，更具經(jīng)濟意義和效益。

千掛科技背后所面向的是一個龐大的干線物流市場，這個市場涵蓋770萬臺中重卡，市場規(guī)模超過4.6萬億，司機成本達到20%+，預計2030年卡車司機缺口達到15%以上。端到端智能駕駛大模型的應用，可以提高自動駕駛系統(tǒng)的泛化性，更好地處理長尾場景，有機會在長途干線雙駕變單駕的基礎上，進入無人駕駛，進一步提升利潤率，擁有無窮的想象力與現(xiàn)實意義。

「端到端智能駕駛大模型」的實踐賽事：深厚的技術根基

知道一個最優(yōu)解并不難，難的是踐行一個最優(yōu)解。

在V12亮相之前，特斯拉就做了非常多的「打地基」技術工作。其中就包括了2021年，特斯拉在AI Day推出基于BEV+Transformer的自動駕駛方案，這個方案相當于，打開了一個理解自動駕駛的全新范式。在過去的幾年里，「BEV + Transformer + 占用網(wǎng)絡 + 無圖化」幾乎統(tǒng)領了頭部車企的研發(fā)方向。

作為新一代自動駕駛技術企業(yè)，千掛科技一開始便出生于GPT時代；更幸運的一點是，作為一個年輕的技術公司，千掛沒有傳統(tǒng)大廠的技術包袱和組織束縛，在新的技術道路上能夠啟動得更為從容。

在千掛1.0階段，千掛通過「One Model」和「Scene-centric」的方式，攻克自動駕駛卡車中感知和預測兩道難題，有效解決高速干線場景下異形車、遺撒物識別等挑戰(zhàn)。

在感知方面，千掛采用「One Model」，即一個大模型完成感知任務，實現(xiàn)多模態(tài)數(shù)據(jù)的前融合和多任務學習的能力。具體來說，多模態(tài)前融合即，將環(huán)視相機、激光雷達等多個傳感器采集的數(shù)據(jù)輸入到一個感知大模型中，通過模型實現(xiàn)空間融合和時序融合，獲得時空融合的特征?；跁r空融合的特征，完成多個感知任務，能夠實現(xiàn)對障礙物的檢測與分割、路網(wǎng)結構（如車道線、可行駛區(qū)域）的實時感知等，達到更完備、更準確、更魯棒的效果。

在預測方面，千掛科技采用了「Scene-centric」架構，對所有道路參與者Agents進行聯(lián)合建模和推理，底層基于Transformer架構完成特征編碼與解碼。相對于Agent-centric的傳統(tǒng)架構，這種對所有障礙物統(tǒng)一建模的新架構簡化了整體流程，提升了訓練和推理效率，并且可以更好地理解道路參與者之間的交互關系，更好地處理蝴蝶效應。

憑借著「One Model」和「Scene-centric」奠定的技術基礎，千掛的自動駕駛卡車如今在京滬等物流大干線上順利實現(xiàn)了「周行萬里無接管」的目標。另一方面，以「One Model」和「Scene-centric」為起點，千掛科技開始了新一代自動駕駛技術——端到端智能駕駛大模型的研發(fā)。在12月的GADS 2023全球自動駕駛峰會上，葉璨博士提出了千掛自研端到端算法框架 - AutraFlow。

千掛科技AutraFlow是面向新一代的自動駕駛技術，是從全面learning化和數(shù)據(jù)驅動的角度，進行設計研發(fā)的。據(jù)葉璨博士介紹，在研發(fā)過程中，團隊深入調研了大量端到端的前序工作，在此基礎上結合干線物流的業(yè)務場景特點，在算法、工程、數(shù)據(jù)等層面做了大量的優(yōu)化工作。目標是讓端到端算法實際上車跑起來，能應對高速干線上的各種路況和場景，并最終在產(chǎn)品和業(yè)務中用起來。

整體上，AutraFlow是一個完全learning化的自動駕駛系統(tǒng)，系統(tǒng)的每個模塊都是基于Transformer的神經(jīng)網(wǎng)絡模型，模塊與模塊之間采用embedding連接，擺脫了傳統(tǒng)的人類設計的抽象概念——比如障礙物的邊界框（bounding box）或預測軌跡，做到更高效、流暢、無損地傳輸數(shù)據(jù)。

葉璨博士進一步解釋，可以把整個端到端模型看作是一個大的神經(jīng)網(wǎng)絡，在訓練時能夠實現(xiàn)各模塊的聯(lián)合優(yōu)化，與此同時可以在中間階段，通過對embedding解碼得到具有相對明確語義的中間結果，便于理解和檢查，打破端到端的黑盒狀態(tài)，從而提升端到端算法的可解釋性。

目前，千掛的端到端算法AutraFlow，已經(jīng)在城市快速路和城市間高速路等公開道路進行常態(tài)化的全功能閉環(huán)測試。近日，千掛科技也對外公布了一段2023年11月AutraFlow在北京市高級別自動駕駛示范區(qū)進行早期路測的視頻集錦。

在葉璨博士的技術規(guī)劃中，以端到端技術為基礎，未來將借助多模態(tài)大模型，把通用知識（world knowledge）引入到自動駕駛系統(tǒng)，基于人類的知識和經(jīng)驗做出更好的駕駛決策，進一步提升自動駕駛系統(tǒng)的泛化性、可用性。

在千掛新一代自動駕駛技術的研發(fā)中，大模型成為了最核心的技術變量。在葉璨博士的帶領下，千掛在自動駕駛領域的多模態(tài)預訓練中持續(xù)探索，將自動駕駛的多模態(tài)特征（圖像、點云等）統(tǒng)一在語言特征空間對齊，從而獲得泛化性更強的特征表達。基于語言對齊的多模態(tài)特征，為下游的多種感知任務提供基礎，使得系統(tǒng)更好地識別異型車、遺撒物等長尾物體，提高對駕駛場景的理解和泛化能力。

對于千掛而言，大模型已經(jīng)成為自動駕駛數(shù)據(jù)閉環(huán)的核心，比如數(shù)據(jù)挖掘、自動化標注等應用。2023年3月起，千掛開始在華中、華北、華東、華南等區(qū)域的主要一級干線，為順豐、福佑等合作伙伴，提供常態(tài)化的物流運輸服務，單均超過1000公里。業(yè)務規(guī)模的擴展也積累了海量的高速場景數(shù)據(jù)，而這也成為千掛的核心競爭力。通過大模型對海量路測數(shù)據(jù)進行挖掘，可以釋放數(shù)據(jù)的黃金價值。目前，千掛超過95%的訓練數(shù)據(jù)都來自于大模型的自動化標注，而大模型進行模型壓縮后得到的車端模型，可以部署路測，獲得更多數(shù)據(jù)，進一步幫助迭代優(yōu)化模型。

千掛正在跑通技術到產(chǎn)品的閉環(huán)

可以說，BEV重新定義了空間和時序，讓空間和時序統(tǒng)一，直接在「上帝視角」下完成了感知、規(guī)劃、控制、決策的高度統(tǒng)一。未來端到端將成為行業(yè)標配。

在這場技術加速賽當中，得益于葉璨博士及其團隊極其前瞻的技術嗅覺，千掛在夯實的技術基礎上啟動端到端的工作，在海量仿真測試的基礎上，在國內率先實現(xiàn)了公開道路的常態(tài)化的端到端智能駕駛大模型閉環(huán)測試，真正邁出了技術體系2.0的第一步，完成了從0到1的突破。在這場高手如云的比賽當中，千掛進入了第一梯隊，以國內領先的身位，跑出了自己的第一個里程碑。

在千掛這支技術尖兵團隊里，聚集了眾多在AI領域深耕多年的頂尖人才。葉璨博士畢業(yè)于美國卡內基梅隆大學（CMU）的人工智能專業(yè)，曾履職快手資深技術總監(jiān)，負責了快手主站推薦、快手 AI 技術，以及快手私域和社交業(yè)務，在他的帶領下，快手實現(xiàn)了強化學習在工業(yè)界的首次大規(guī)模落地應用。在葉璨博士背后，是一群有著在百度、快手、騰訊、商湯等技術巨頭豐富經(jīng)歷的技術專家，和國內外頭部院校博士組成的技術團隊，在這場端到端的賽跑中，他們打通了感知、預測、規(guī)劃、控制、架構等技術的任督二脈，攻克了一個又一個的技術難題。

在技術的長板足夠長的同時，千掛在資本層面也取得長足的進展，近日，千掛科技順利完成 Pre-A 輪融資的新一輪交割；在商業(yè)化層面，千掛在中國東部的主要一級干線路段完成 300 余次的載貨運輸服務。

這家年輕的公司正在走出從資本、商業(yè)化、技術的全面正向閉環(huán)，以領先的技術優(yōu)勢打開一個全新的物流實踐地圖，展現(xiàn)出技術如何驅動商業(yè)升級發(fā)展。

關鍵詞：

完成國內首次端到端智駕大模型路測，千掛科技實現(xiàn)「彎道超車」

您可能也感興趣:

今日熱點

【糧食大事】增強糧食全鏈條協(xié)同保障能力

北交所將穩(wěn)步擴大指數(shù)化投資

融券新規(guī)對ETF投資有影響么？

更多

更多

排行

最近更新

今日要聞

完成國內首次端到端智駕大模型路測，千掛科技實現(xiàn)「彎道超車」

您可能也感興趣:

今日熱點

【糧食大事】增強糧食全鏈條協(xié)同保障能力

北交所將穩(wěn)步擴大指數(shù)化投資

融券新規(guī)對ETF投資有影響么？

為您推薦

國家郵政局：1—9月中國快遞業(yè)務量同比增長16.4%

中國紅APP正式上線發(fā)布

第十二屆東亞地方政府會議將在山東臨沂召開 促進東亞地區(qū)交流合作

（鄉(xiāng)村行·看振興）山西柳林依托“數(shù)商興農”打造鄉(xiāng)村e鎮(zhèn) 電商交易9個月達3.5億元

更多

更多

排行

最近更新

今日要聞

第十二屆東亞地方政府會議將在山東臨沂召開促進東亞地區(qū)交流合作