登上Nature封面的自動駕駛,這次有“人工智能”保駕護航! 2024年1月23日 上午11:16 ? 頂刊 ? 閱讀 50 自動駕駛汽車的發展和部署面臨一個嚴重的瓶頸,即在自然駕駛環境下驗證其安全性所需的經濟和時間成本非常高,這是因為安全關鍵事件的發生非常罕見。換句話說,為了保證自動駕駛汽車的安全性能,需要大量的時間和經濟資源,但卻很難在實際駕駛中遇到安全關鍵事件。 在此,來自美國密歇根大學的Henry X. Liu等研究者報告了一種智能測試環境的開發,其中基于人工智能的背景代理被訓練用于加速模式驗證自動駕駛汽車的安全性能,同時不失公正性。相關論文以題為“Dense reinforcement learning for safety validation of autonomous vehicles”于2023年03月23日發表在Nature上。 與此同時,該篇文章登上了同期《Nature》的封面。 由于自動駕駛汽車(AV)技術的迅速發展,人們正處于一個規模之前自汽車問世以來未曾見過的交通革命的前夜。AV技術有潛力大幅提高交通安全性、流動性和可持續性,因此吸引了來自工業、政府機構、專業組織和學術機構的全球關注。 過去20年來,AV的發展取得了實質性進展,特別是隨著深度學習技術的出現。到2015年,幾家公司宣布將在2020年之前開始大規模生產AV。然而,到目前為止,現實并沒有達到這些期望,沒有4級AV是商業可用的。這其中的原因有很多,但最主要的是AV的安全性能仍然遠遠低于人類駕駛員。在自然駕駛環境下,美國平均司機發生車禍的概率約為每英里1.9×10-6。 相比之下,目前最先進的AV的故障率約為每英里2.0×10-5。盡管故障率因其潛在的偏見性而受到批評,但它已經被廣泛用于跟蹤AV安全性能的趨勢,因為這可能是公眾可用于比較不同AV的唯一統計數據。 提高AV安全性能的一個關鍵瓶頸是安全驗證的嚴重低效。目前的方法通常通過軟件模擬、封閉測試軌道和公路測試的組合來在自然駕駛環境下測試AV。然而,為了驗證AV的安全性能能夠達到人類駕駛員的水平,需要在自然駕駛環境中測試數億甚至數千億英里。 由于這種嚴重低效性,AV開發人員必須支付大量的經濟和時間成本來評估每一項開發,這阻礙了AV部署的進展。為了提高測試效率,許多方法會在有意生成的更加安全關鍵的場景中測試AV。然而,現有的基于場景的方法主要適用于具有有限背景道路用戶的短場景片段。 在自然駕駛環境下驗證AV的安全性能本質上是一個高維稀有事件估計問題。主要挑戰來自于‘稀有性’和‘維度詛咒’的復合效應(如圖1a所示)。通過‘維度詛咒’,研究者指的是駕駛環境可以是時空復雜的,而定義這些環境所需的變量是高維的。 隨著變量空間的體積隨著維度的增加呈指數級增長,計算復雜度也呈指數級增長。通過‘稀有性’,研究者指的是安全關鍵事件的發生概率很低,也就是說,變量空間的大多數點都不是安全關鍵的,這些點對訓練沒有或者提供嘈雜的信息。在這種情況下,即使有大量的數據,深度學習模型也很難學習,因為安全關鍵事件的有價值信息(例如策略梯度)可能被大量的非安全關鍵數據掩蓋。 近幾十年來,人工智能系統在解決‘維度詛咒’問題方面取得了快速進展,例如圍棋的狀態空間有10360種情況,半導體芯片設計的狀態空間可能達到102,500級別。然而,在本項工作之前,同時解決‘維度詛咒’和‘稀有性詛咒’的問題一直是一個懸而未決的問題,這妨礙了將人工智能技術應用于安全關鍵系統(如AV、醫療機器人和航空航天系統)。 圖1 用密集學習方法驗證安全關鍵人工智能 在此,研究者通過開發一種密集深度強化學習(D2RL)方法來解決這一挑戰。基本思想是識別并刪除非安全關鍵數據,利用安全關鍵數據訓練神經網絡。由于只有很小一部分數據是安全關鍵的,其余數據的信息將被大幅密集化。 本質上,D2RL方法通過刪除非關鍵狀態并重新連接關鍵狀態來編輯馬爾可夫決策過程,然后僅為編輯后的馬爾可夫過程訓練神經網絡(如圖1b所示)。因此,對于任何訓練episode,終點狀態的獎勵將沿著僅包含關鍵狀態的編輯過的馬爾可夫鏈進行反向傳播(如圖1c所示)。 與DRL方法相比,D2RL方法可以在不失偏差的情況下,將策略梯度估計的方差顯著降低多個數量級,根據方法中的定理1證明,這種方差降低可以使神經網絡學習并完成DRL方法無法完成的任務。 對于AV測試,研究者利用D2RL方法,通過神經網絡訓練背景車輛(BVs)學習何時執行哪些對抗性機動,以提高測試效率并確保評估無偏。這導致了一個基于人工智能的對抗性測試環境,可以將AV所需的測試英里數減少多個數量級,同時確保測試無偏。 研究者的方法可以應用于復雜的駕駛環境,包括多個高速公路、十字路口和環形交叉口,這是以前的基于場景方法無法實現的。所提出的方法賦予環境中的測試代理智能,創造了一個智能測試環境,即使用人工智能驗證人工智能。這是一個范式轉換,并為與其他安全關鍵系統的加速測試和培訓打開了大門。 為了證明研究者基于人工智能的測試方法的有效性,研究者使用大規模自然駕駛數據集訓練了BV,并在物理測試軌道上進行了模擬實驗和現場實驗。 具體來說,研究者使用開源自動駕駛系統Autoware,在美國移動性中心(ACM)的4公里長的物理高速公路測試軌道和Mcity的城市測試軌道上測試了一個4級AV。為了安全而準確地使用D2RL訓練的測試環境測試AV,研究者開發了一個增強現實測試平臺,它結合了物理測試軌道和微觀交通模擬器SUMO(城市移動仿真)。 如圖1d所示,通過同步實際AV和虛擬BV的運動,物理測試軌道上的實際AV可以與虛擬BV互動,就像在一個真實的交通環境中一樣,BV被指示與實際AV互動。對于模擬和現場實驗,研究者評估了撞車率、撞車類型和撞車嚴重程度。 研究者的模擬和現場測試結果表明,D2RL方法可以有效地學習智能測試環境,相對于直接在自然駕駛環境下測試AV的結果,可以顯著地加速多個數量級的AV評估過程(速度提高了103到105倍),而且沒有偏差。 圖2 D2RL 與 DRL 的角格生成實例比較 圖3 基于 D2RL 的智能測試環境性能評估 圖4 在物理測試軌道上進行的實際 AV 測試實驗 綜上所述,研究結果證明了使用D2RL技術驗證AV的行為能力的安全性能。D2RL可以加速測試過程,并可用于模擬測試和測試軌道方法。它可以顯著增強現有的測試方法(如證偽方法、基于場景的方法和NDE方法),以克服它們在實際應用中的局限性。D2RL還為利用人工智能技術驗證其他安全關鍵自主系統(如醫療機器人和航空航天系統)的機器智能打開了大門。 理想情況下,測試環境應考慮AV的所有操作條件及其相關的罕見事件。例如,一個六層模型已被開發來結構化場景的參數,包括道路幾何形狀、道路家具和規則、時間修改和事件、移動物體、環境條件和數字信息。 在本研究中,研究者主要關注兩個層面:移動物體和道路幾何形狀,即多個周圍車輛在不同幾何形狀的道路上進行機動,這對于測試環境至關重要。研究者的方法可以擴展到包括來自其他層面的參數,例如天氣條件,通過收集大規模的自然駕駛數據并利用這些領域的專業知識。 文獻信息 Feng, S., Sun, H., Yan, X.?et al.?Dense reinforcement learning for safety validation of autonomous vehicles.?Nature?615, 620–627 (2023). https://doi.org/10.1038/s41586-023-05732-2 原文鏈接: https://www.nature.com/articles/s41586-023-05732-2? 原創文章,作者:菜菜歐尼醬,如若轉載,請注明來源華算科技,注明出處:http://www.zzhhcy.com/index.php/2024/01/23/07295e369f/ 頂刊 贊 (0) 0 生成海報 相關推薦 ?哈工大ACS Energy Letters:構建界面O2積累微環境,促進電化學H2O2生產 2022年12月13日 ?天大Angew: Jahn-Teller摻雜劑誘導Co4N深度氧化,活化晶格氧來促進OER 2024年6月12日 Appl. Catal. B.: 高活性和穩定的Pd/MoC催化劑用于甲醇分解制氫 2021年8月28日 蘇大鄭洪河/同濟黃云輝Nano Energy:20 C容量高達1501.4 mAh/g的硅負極! 2023年10月18日 吳宇恩/周煌JACS:Ni-Fe DASs助力電還原CO2制可調合成氣 2023年10月4日 Nature子刊:利用AIMD模擬,揭示納米限制促進CO2在超臨界水中的反應 2022年10月29日