經過數年的積累,美團無人車已經從技術探索進入到業務運營階段,這個階段對于自動駕駛車端系統和離線系統都有了新的要求。
在車端系統上,我們更加關注如何構建低成本、低功耗、高穩定性的自動駕駛系統來支撐大規模運營,對此業界常用多片ARM芯片并配合邊緣計算技術來實現,這對于上層軟件自動駕駛引擎來說也有了新的要求,即需要它能夠支撐多計算節點的協作運行。
另外在離線仿真系統上,仿真任務的迅速增長,要求我們需要具備高效管理、運行超大規模仿真任務的能力,由于不同類型的仿真任務對硬件算力的需求并不一樣,那么在仿真系統所能使用的硬件資源配比相對固定的情況下,我們就需要將最大化資源所能承載的任務同樣作為引擎的優化目標。
美團無人車技術團隊如何應對以上挑戰,下文將展開講述。
在從傳統IPC向分布式計算平臺的過渡過程中,我們希望上層功能模塊在移入到分布式計算平臺上運行時無需任何適配,功能模塊也無需關心它所運行的節點是否跟上下游模塊在同一個節點上。
為完成上述目標,我們就需要自動駕駛引擎能夠提供運行環境的抽象與隔離,引擎為完成這一層抽象,必須解決三個關鍵點:分布式環境下高實時性的數據傳輸、高實時性的調度、關鍵自動駕駛數據的實時記錄。
圖1. 引擎需要將算力向端上平滑遷移
仿真系統是自動駕駛研發的重要手段,在自動駕駛進入到運營階段之后,仿真任務也迅速增長,目前美團自動駕駛仿真系統每天執行數百萬仿真任務,峰值流量每小時上百萬任務,仿真里程每天上千萬公里。
前面提到,不同的仿真任務對硬件算力的需求是不一樣的,比如感知預測仿真任務必須依賴GPU運行,在硬件資源(或者其硬件資源的配比)是固定的前提下,為擺脫這種仿真任務的硬性依賴進一步提升資源利用率,我們需要將仿真任務中不同的子任務按照計算屬性拆分到不同的機器上運行,其中引擎要負責完成同一任務在不同機器間的通信和執行調度,并做到這種拆分對上層仿真任務無感。
圖2. 如何在仿真環境中依據任務屬性調度任務
在美團,我們打造了統一的自動駕駛引擎來同時滿足車端計算平臺和離線仿真系統的需求,因此面向運營的分布式引擎也會遵循這一策略,使用統一的架構來滿足車端分布式計算平臺和離線仿真系統在大規模運營階段的新需要。
自動駕駛引擎作為車載自動駕駛系統和離線仿真系統的運行調度管理中心,負責構建自動駕駛功能模塊(定位、感知、預測、規劃等)的運行環境,讓上層功能模塊的開發者專注于模塊的核心功能開發。
而諸如模塊的如何穩定執行、上下游的數據如何傳輸、自動駕駛數據如何可靠記錄等問題則由引擎來處理。
在自動駕駛進入運營階段之后,為應對前述講到的分布式計算平臺的新需求和仿真系統的挑戰,自動駕駛引擎需要關注以下關鍵點:
a).能夠提供底層不同硬件平臺和計算場景(單IPC/分布式計算平臺/仿真集群)的高度抽象與隔離,對上層功能模塊提供統一的執行接口,上層模塊不需要任何改變就可以運行在不同的業務場景中,這種隔離和抽象是對高效研發的重要支撐。
b).提供高效的自動駕駛各功能模塊的數據交互機制,各場景下的通信接口完全一致。
c).統一管理自動駕駛各模塊的公共基礎依賴,比如配置、地圖、環境等,并對上層模塊提供統一的接口。
d).提供可靠的自動駕駛系統運行數據記錄,并要保證數據完備、一致。
基于以上考量,美團自動駕駛引擎的整體架構如下圖所示,后續章節會對架構中關鍵模塊做進一步闡述。
圖3. 美團面向運營場景的自動駕駛引擎架構
為應對自動駕駛運營階段的新需求,我們構建了一套基于Pub-Sub模式的可擴展的通信機制,并已經將之擴展到多種通信場景中,比如單節點多進程間的IPC通信、多節點間也根據需要提供了gRPC和PCIe等多種通信方式來滿足分布式計算平臺和仿真平臺上的需要,而上層功能模塊在不同場景下均使用統一的通信接口。
下圖是分布式通信總線的層次結構示意圖。
圖4. 分布式通信總線層次結構
通信總線關鍵組件解釋:
a).CallbackManager負責管理上層功能模塊訂閱者的回調函數及其執行。
b).Dispatcher負責構建通信路由,并根據路由將消息分發到對應的節點,他是通信總線的核心組件,他決定了自動駕駛數據流的完整通路,圖5是一個模塊間通信的數據流轉過程的示例。
c).Channel負責實際的消息傳輸,并根據不同的場景構建了不同方式的Channel來供上層業務模塊選擇。
圖5. 自動駕駛消息流轉過程示例
自動駕駛數據的記錄對于我們分析自動駕駛問題至關重要,數據記錄的完整性和可靠性直接決定了研發效率的下限。
對于分布式場景下的自動駕駛數據記錄來說,我們關心以下幾點:
a).數據的高度有序性:各計算節點間的數據按照時間線進行有序統一記錄是事后高效數據分析的基礎,如何在分布式場景中保證海量數據(100+GB/Hour量級)的有序性是數據記錄的一個難點。
b).數據的完整性:自動駕駛的數據要做到不遺漏,不重復,在需要記錄的數據中,除了自動駕駛業務模塊的數據外,通信鏈路本身的Trace數據和模塊執行數據對于分析系統問題同樣重要,實際應用中我們發現這類數據量非常大,一般會達到2-3萬條/秒,對這些數據的記錄不能影響到自動駕駛系統的平穩運行。
針對這些挑戰,我們的解決方案是,采取集中式 + 主動拉取式的數據記錄落盤策略,即通信數據和系統數據統一進入通信總線,使用單一Recorder主動監聽總線進行數據記錄落盤,最大化減少數據記錄對系統正常運行的影響,在主動拉取的工作方式上運用重排機制,解決了分布式場景下可能出現的亂序問題。
下圖是一個典型的數據流記錄的示例流程。
圖6. 自動駕駛關鍵數據記錄流程示例
自動駕駛地圖是自動駕駛系統正常運行不可或缺的一部分,并且它是上層功能模塊的一個通用組件,因此分布式引擎也負責管理車端地圖。
在自動駕駛進入運營階段之后,自動駕駛地圖的管理有了新的挑戰:
a).在運營階段,ODD的不斷快速擴展成為常態,全量地圖數據已經無法全部載入內存,顯然這是地圖管理在運營階段需要著重解決的主要問題之一。
b).另外在實際大規模化運營過程中,自動駕駛地圖類信息更新比較頻繁,比如某個交通燈壞掉、車道線更新、路兩側植被環境短時間內變化較大等等,這就要求我們能夠支撐高頻的自動駕駛地圖更新需求。
針對地圖數據的不斷擴張等問題,我們通過精細化地圖服務,使用車輛位置動態加載瓦片地圖,很好地解決了這一阻礙。
此外我們引入了動態圖層管理,提供了準實時更新高頻變化的地圖數據的手段,為保證全天候的自動駕駛運營提供了重要支撐。
下圖是自動駕駛引擎中地圖管理流程的示意圖。
圖7. 分布式引擎地圖服務管理方案示意圖
美團自動駕駛引擎的演進有效支撐了上層業務在不同階段的需求,為分布式計算平臺提供了系統級的軟件解決方案,也為仿真系統進一步提升資源利用率掃除了主要障礙,促進了美團無人車規模化快速落地運營的進程。
未來,美團無人車技術團隊也將持續深耕末端物流無人配送領域,努力成為構建“幫大家吃得更好,生活更好”美好生活中的重要一環。
中郵無人機(北京)有限公司揭牌
2622 閱讀智能倉儲企業“智世機器人”完成數千萬元A輪融資
2558 閱讀這家老牌物流巨頭被整合重組,四千多名員工將何去何從?
1963 閱讀2024最值錢的物流上市企業是誰?哪些物流企業被看好,哪些被看跌?
1429 閱讀地緣政治重塑下的全球供應鏈:轉型、挑戰與新秩序
1207 閱讀物流供應鏈領域“吸金”不力,但能給投融資事件頒幾個獎
1168 閱讀2024LOG供應鏈物流?突破創新獎候選案例——準時達國際供應鏈管理有限公司
1022 閱讀仿生學:蜂巢帶給供應鏈管理的啟示
990 閱讀16連冠背后,日日順助力智家工廠物流降本增效
1015 閱讀中遠海運回應被美國國防部列入“中國軍事企業”清單
938 閱讀