這兩天我在美國加州體驗了 FSD v12.3.6 的版本,也打了一臺 Waymo 體驗。
總的來說,在舊金山城區 Waymo 表現更好,而 FSD 在硅谷和高速表現極好,可以達到很高的分數,很多路況處理都很絲滑。我非常感慨 FSD 在數月里有很大的進步,我們也會向 FSD 學習他們優秀的功能點和用戶體驗部分,我相信 2025 年會是完全自動駕駛的 ChatGPT 時刻!
上周,何小鵬遠赴北美。除了現場觀看 NBA 決賽,參加投資趨勢會議,還順便親自體驗了特斯拉的 FSD v12 以及 Waymo(Alphabet 旗下無人駕駛出行服務商)的智駕表現。
何小鵬在美國體驗特斯拉 FSD-圖片來自微博@XP-何小鵬
馬斯克曾在 4 月末進行了一次極速訪華,本次訪華的目的是討論 FSD 在中國落地的可能性。
在其飛抵北京的同一日夜間,中國汽車工業協會、國家計算機網絡應急技術處理協調中心發布《關于汽車數據處理 4 項安全要求檢測情況通報(第一批)》,通報指出:
特斯拉上海超級工廠生產的車型符合規定要求,首批 6 家合規車企中特斯拉是唯一一家符合要求的外資車企。
成為首批合規的車企,這也意味著特斯拉有望各地陸續解除禁行禁停限制。而特斯拉中國官方的 FSD 購買頁面描述,也從「稍后推出」變更為「即將推出」。
特斯拉 FSD 落地中國,正比任何時候都要接近成為現實。
Elon Musk-圖片來自:AFP
遠赴特斯拉大本營,親自體驗 FSD,何小鵬其一重要目的是:讓 XNGP 與特斯拉的 FSD 隔空較量,看看兩者孰強孰弱。
昨日,何小鵬在社交平臺上放出了 FSD 體驗的詳情視頻,主體的體驗環節由三段導航里程(加州大道-斯坦福游客中心-谷歌游客中心-Mission Bay)組成。
電車實驗室對視頻內容要點做了較為完整的速記,以此回顧何小鵬對 FSD v12.3.6 的體驗觀點:
事實上,這已經不是國內新勢力首次與 FSD 的「隔空對標」了。
余承東不止一次在發布會上透露,華為內部團隊曾遠赴美國舊金山等地,將華為的 ADS 與特斯拉的 FSD 進行了測試對比,而他認為華為的 ADS 智駕系統仍然擁有著全球最好的智駕能力。
如 2020 年特斯拉中國成為新能源市場「鯰魚」的那個前夜,靴子即將落地的 FSD,也正成為國內車企爭相對標的對象。
何小鵬為特斯拉 FSD 鼓掌-畫面截自微博視頻號@XP-何小鵬
端到端,AI 的新秩序
頻頻被提及對標,特斯拉在 FSD 上做到了什么。
去年 8 月,加州 Palo Alto,馬斯克親自完成了一次 FSD v12 的實車測試。他駕駛一臺搭載 HW3.0 硬件的 Model S,從特斯拉工程總部出發,全程實況直播。
時長 45 分鐘的測試中,這臺運行 FSD v12 的 Model S 僅出現一次被迫接管情況,馬斯克表示:FSD 會模仿人類的駕駛習慣,神經網絡的可成長性也將大幅修窄智駕的犯錯空間。
馬斯克所說的神經網絡,指的是端到端神經網絡(End-to-End)。
何為 End-to-End 端到端架構?
在自動駕駛主流開發中,往往會將系統分為感知、規劃、決策三個模塊,先感知車輛環境,再規劃行車路徑,最終輸出執行路徑完成 AD 系統的運行閉環。
分拆的模塊模仿了人類駕駛認知-分析-決策的步驟,模塊間獨立運行,提升模塊間透明度的同時還降低了開發的難度。
支撐模塊運行,是其背后大量的人工代碼,三個模塊的代碼量也意味著智駕人員的冗余龐雜。而更關鍵的問題在于,人工代碼始終是規則框架內的產物,在代碼驅動下的自動駕駛無法處理長尾問題。
相比主流方案,特斯拉的端到端模型將感知、規劃、決策的模塊融合,形成新的神經網絡。
馬斯克透露:引入端到端神經網絡后,特斯拉替代了 FSD 中 30 多萬行的 C++ 代碼,v12 初始版本的人工代碼僅剩下 3000 行。通過神經網絡,特斯拉車輛在直接輸入傳感器數據后,即可生成制動、加速及轉向信號。
拋卻「死板」的人工代碼,特斯拉將大量包含人類駕駛的視頻數據壓縮,支持 FSD 的擬人化成長。
這也意味著:智能駕駛在完成 L2/3 的布局后,下一步的目標就將會是 L5 完全自動駕駛。
2 月中旬,特斯拉確認開始向非內部員工車主推送 FSD Beta v12.1.2。盡管推送覆蓋面積僅為隨機 0.5%-2% 符合條件的車主,但基于端到端神經網絡的智能駕駛,走出了大規模應用的第一步。
E2E 神經網絡的出現,松開了長尾事件對智駕開發的束縛,創造了更有想象力的技術上限。但在享用端到端大模型先進性的同時,車企還要有足夠的體量支撐。
想要大模型準確、無誤地修正駕駛邏輯,車企需要為此投喂大量高質量的駕駛數據,數據庫首先就會受到挑戰。
這對于特斯拉來說,并不是什么難題,從生產第一輛 Model S 開始到今年 4 月,特斯拉在全球范圍總計生產超過 600 萬輛新車,而多年來 FSD 駕駛的累計里程也已經超過了 10 億英里(約 16.09 億公里)。
7 個視角的模擬現實視頻輸出-內容截自 X(原推特)
除了真實的海量道路片段數據,馬斯克透露:大約一年多前,特斯拉就已經能夠利用精確的物理原理制作真實模擬世界的視頻,而相比爆火的 Sora,特斯拉領先之處更是在于能夠提供極為精準的物理現實,幫助 FSD 更好地理解現實世界。
從 2023 年集中爆發以來,AI 技術在可感知的 2 年內,就完成了智能駕駛新秩序的建立。
新勢力眾生相:調整、探索隨行
AI 需要的海量高質量數據,車企的智駕競爭,也是交付體量的博弈。國內有能力、心力跟進端到端大模型第一梯隊的新勢力車企并不多,主要還是集中在了頭部。
小鵬汽車算是率先在端到端大模型上拔得頭籌的新勢力車企。
今年 5 月,小鵬在 AI Day 上宣布國內首個量產端到端大模型上車。整個大模型包括神經網絡 XNet、規控大模型XPlanner 以及大語言模型 XBrain,三者融合取代以往主流的「感知-規劃-控制」的獨立模塊邏輯。
XNet 神經網絡負責模擬人類視覺,將自動駕駛的感知能力提升 2 倍。何小鵬將 XPlanner 形容為是人類的「小腦」,在海量高質量數據訓練下,XPlanner 能夠幫助車輛的決策擬人化,減少頓挫、卡死、接管等等情況;而 AI 語言大模型 XBrain 提供大腦般的理解能力,幫助處理復雜、泛化的道路問題。
何小鵬表示:2024 年將投入 35 億元用于智能研發,小鵬汽車的端到端大模型可以實現 2 天 1 迭代,18 個月就能夠將智駕能力提升 30 倍。今年第三季度,小鵬預計將會實現「全國都能開,每條路都能開」的智駕體驗。
延續何小鵬輸出 FSD 體驗報告的熱度,昨夜小鵬汽車自動駕駛負責人李力耘,再次在微博上發聲,他稱:
目前行業所說的「全國都能開」,一種是白名單式,支隊城市內部分白名單道路開放,或只招募部分滿足一定門檻的白名單用戶;另一種是黑名單式,出了部分特定場景不能開,其余全國所有路都能開。
小鵬 XNGP 就是后者之一,今年 7 月小鵬汽車也將全量推送「黑名單式」的全國都能開。
國內首款端到端首發,加速了行業入局布置的速度,而在新技術的探索中,也伴隨著動蕩的調整。
小鵬正為端到端技術的到來,更積極地調整智駕團隊的架構,據 36 氪汽車報道消息稱:小鵬汽車在智駕部門下成立了 AI 部門,針對性推進端到端等技術。
圖片來自微博@XP-李力耘
幾乎是在同一時期,理想汽車開啟了新一輪的裁員計劃,整體優化比例超過 18%。在其發布 2023 年財報詳情中,理想汽車的員工總數超過 3.16 萬人,在此優化占比下,預計超過 5600 人受到影響波及。
受到最大影響的是 HR 招聘部、銷售運營部以及智能駕駛部門,其中,理想汽車的智能駕駛團隊規模已經縮減至 1000 人以內。
智駕團隊震蕩精簡,理想卻沒有停止對端到端大模型開發的推進。在 2024 年中國汽車重慶論壇上,李想談起了自動駕駛,他稱:
從去年 9 月開始,理想內部就在思考一個問題,并專門組建了一個專門用于自動駕駛的團隊。
有個最簡單的問題,人為什么開車不需要學習各種極端情況?如果不能解決這個問題,所有自動駕駛團隊每天干的活就是通過人工去調試各種極端情況,這離自動駕駛的實現就會越來越遙遠,人類開車與以往自動駕駛的開發方式有著根本的不同。
今天很多自動駕駛團隊都在做「端到端」,完整的訓練頻段放進來,從輸入直接到輸出,相比過往的獨立模塊效率要高了不少,但挑戰是難適應人類規則。
挑戰有三:專做端到端數據訓練的人才,真正高質量的數據以及足夠多的算力。
以此為理念,理想團隊對「雙系統」技術路線有了更多探索。
理想團隊從丹尼爾·卡尼曼的著作《思考,快與慢》中獲得靈感,人類快思考占據了日常大腦 95%的工作,而邏輯嚴密、緩慢的思考工作則約為 5%。
人在駕駛時,近乎 95%的動作是肌肉記憶,精力花費不多,只有碰到緊急情況下才需要觀察路面,思考給出下一步決策。
自動駕駛系統同樣如此,端到端為快思考系統,足以處理正常的自動駕駛,而理想引入了視覺語言大模型 VLM 作為慢系統,增強兜底及泛化能力,負責解決復雜的長尾問題。
AD Max3.0 目前擁有 2 顆 OrinX 芯片,而理想的核心思路是,一顆 OrinX 用于端到端模型的布置,另一顆則被用在了 VLM 運行上,兩顆 OrinX 芯片的算力用得剛剛好。
端到端模型能夠理解,那 VLM 又為何物?
VLM 模型是 Vision-Language Model 的縮寫,即視覺語言模型,這種模型既會看畫面,也會用語言描述看到的事物,進而完成思考,這與人類處理緊急情況的邏輯是高度相似的。
端到端、VLM 兩套系統上車,兩套大模型同時開跑,端到端快系統的推理速度為 10Hz,而慢系統則為 1-2Hz,快慢系統并行運行,遇到復雜路況情況下,VLM 會進行更慢更深層次的邏輯推理,并及時為快系統傳達信號,起到準確的介入干涉作用。
VLM 就好比是具備成長性端到端模型的實時老師,理想將此拆分為快慢系統的好處是:降低了自動駕駛技術的開發難度,加快了技術上車。
李想進一步表示,理想汽車將在今年的第三季度推送無圖 NOA,并向測試用戶推送基于 300 萬 Clips 訓練后的端到端+VLM 版本。
與此同時,李想還對更高級的自動駕駛做出了研判:有監督的 L3 級自動駕駛最快今年年底,最晚明年年初實現,3 年內可以實現無監督的 L4 自動駕駛。
步入調整的還有蔚來。
上周,晚點 Auto 曾發布獨家消息稱:蔚來的智駕研發部完成了架構調整,此前蔚來智能駕駛研發部份為感知、規控以及集成等部分。調整后,感知和規控團隊將合并為大模型團隊,繼承團隊重組為交付團隊。
放棄過往「感知-決策-規控」的開發思路,調整架構的蔚來也正在推進端到端大模型的開發探索。
搭載端到端架構的 FSD v12,已經開始在北美大規模推送。在特斯拉 FSD 落地中國的微妙前夜,新勢力們正摸著特斯拉的「石頭」,搶灘國內端到端高階智駕。