??在深度學習變得普遍之前的2010年,感知是molex連接器自動駕駛汽車能力的主要限制,但2014年之后基于深度學習的雷達技術、相機還有激光雷達,帶來了技術性能的不斷提升——那么無人駕駛汽車下一步還會迎來哪些挑戰呢?
??在過去的十年里,自動駕駛領域對機器學習的大部分對話都集中在對象檢測上。對安全導航至關重要的是,我們如何才能提高自動駕駛汽車檢測和跟蹤動態物體的能力?在2010年,當深度學習變得普遍之前,感知是自動駕駛汽車能力的主要限制。其中ImageNet的分類精度在當時作為最先進的解決方案只能達到50%的準確率(相比之下,今天的準確率為88%)。雖然ImageNet分類并不能與當前最先進的目標檢測技術相提并論,但它確實代表了計算機視覺的進步。
??直到2012年,AlexNet成為ImageNet競賽的首批參賽者之一,它利用卷積神經網絡進行深度學習。AlexNet在當年的ImageNet競賽上達到了最先進的精度,成為計算機視覺領域最有影響力的方法。
??從2014年開始,基于深度學習(Deep Learning)的雷達技術、相機還有激光雷達,都開始悄悄進入自動駕駛領域。谷歌的自動駕駛汽車與一位坐輪椅的女士用掃帚追趕一只鴨子的奇遇,成為有史以來挑戰感知技術的一個著名例子。
??如今,基于深度學習的感知技術在自動駕駛汽車中應用很常見,我們也看到了技術性能的不斷提升。近年來,VoxelNet、PIXOR和pointpillar等網絡推動了計算機視覺技術的發展。盡管機器人不會像人類那樣完美的感知,但計算機視覺的發展如此之快,可以說它現在已經不再是自動駕駛汽車商業化應用的主要障礙。
? 那么無人駕駛汽車接下來呢?預測!
??既然我們已經安全地探測到周圍的關鍵物體,接下來就是預測它們下一步的行動。正確的預測意味著我們將在正確的時間執行正確的策略,同時考慮周圍人的行動。預測錯誤意味著我們可能把自己推入危險的境地。我們需要使用成千上萬的環境輸入來進行盡可能正確的預測。
? ??預測是無保護左轉彎最難實現的核心問題。自動駕駛汽車在轉彎前必須預測周圍所有動態智能體的未來動作,這一任務比自動駕駛中的其他問題需要更多的智能。人類駕駛員雖然不是完美的,但主要依賴其大腦、駕駛經驗和心理暗示(如輕推或手勢等),來成功地執行無保護左轉彎。
??雖然機器相對于人類也有一些明顯的優勢(比如360°的遠程視覺),但與人類相比,自動駕駛技術中的預測能力可能落后很多。
1、感知模塊檢測輸出自動駕駛汽車一定半徑內的一組目標 (如車輛、行人等),然后輸入給預測模塊;
2、預測模塊使用當前的方位、速度和之前的觀察來生成關于每個對象在接下來5秒內可能做什么的預測;
3、通過將所有這些預測輸入一個算法,最終生成一個關于自動駕駛汽車可以執行的最安全操作的假設;
4、自動駕駛汽車實時計算,每100毫秒重新評估決策。
??可以看到,這種傳統的計算方式會導致不安全和潛在危險的駕駛行為,尤其是在密集的城市環境中。在過去的幾年里,我們見證了用深度學習方法進行預測的很多實驗。這些方法有可能顯著提高預測的準確性,將它們從機器人轉變為類人。
??用數據驅動的方法來解決這些傳統的預測問題,與2010年的深度學習如何取代傳統認知技術驚人地相似。
下面是一些實際的例子:
? 克魯斯的感知工程師做了一次偉大的演講,關于他們如何將預測問題轉化為一個分類問題。我對他們構建的工具特別感興趣,這些工具支持快速實驗,并具有快速學習場景和自動標記的能力。
Uber分享了他們在DRF-Net上的工作,DRF-Net增強了行人預測能力:“大量的實驗表明,我們的模型表現出了高概率、低誤差、低熵和多模態的強大特性。”DRF-NET離散預測的強大性能對于基于成本和約束的機器人規劃是很有意義的。蘋果發表了一篇新的強化學習論文,題為《最壞策略梯度》(Worst Cases Policy Gradients):“構建智能系統的關鍵挑戰之一是在復雜環境中做出穩健、安全的順序決策的能力。”ISEE在CVPR 2019發布了一項學習預測方法:“這種MAT編碼能夠自動處理不同種類的場景,并通過對MAT的卷積運算,預測場景中所有Agent的軌跡,其計算復雜性與Agent的數量成線性關系。”雖然預測還沒有達到它所需要的性能,但我很清楚,我們將看到數據驅動方法在預測性能上的巨大飛躍,這與深度學習如何影響傳統感知非常相似。這些即將到來的飛躍將極大地改善自動駕駛汽車的決策,為乘客帶來更安全、更順暢的乘坐體驗。?