今日Nature:深度強化學習讓AI自行成長! 2024年1月4日 上午10:59 ? 頂刊 ? 閱讀 24 排序或散列等基本算法,在任何一天都會被使用數萬億次。隨著計算需求的增長,這些算法的性能變得越來越重要。 盡管過去已經取得了顯著的進步,但進一步提高這些程序的效率對人類科學家和計算方法來說都是一個挑戰。 在此,來自英國Deepmind公司的Daniel J. Mankowitz等研究者展示人工智能(AI)如何通過發現迄今未知的例程來超越當前的藝術狀態。相關論文以題為“Faster sorting algorithms discovered using deep reinforcement learning”于2023年06月07日發表在Nature上。 與此同時,同期Nature專門發表了一篇Views,以說明該篇文章的重要性。 人類的直覺和專業知識,對改進算法至關重要。然而,許多算法已經達到了人類專家無法進一步優化它們的階段,導致了不斷增長的計算瓶頸。經典程序綜合文獻中的工作跨越了幾十年,旨在使用延遲代理生成正確的程序和/或優化程序。 這些包括枚舉搜索技術和隨機搜索,以及最近在程序合成中使用深度學習以生成正確程序的趨勢。使用深度強化學習(DRL),人們可以更進一步,通過優化CPU指令級的實際測量延遲,與以往的工作相比,通過更有效地搜索和考慮正確和快速程序的空間,生成正確和高性能的算法。 計算機科學中的一個基本問題是如何對序列進行排序。這是在世界各地的初級計算機科學課程中教授的,并且在廣泛的應用中無處不在。 幾十年來,計算機科學研究一直專注于發現和優化排序算法。實際解決方案的一個關鍵組成部分是對短序列的元素進行小排序;在對使用分治法的大型數組進行排序時,會反復調用該算法。 在這項工作中,研究者重點研究了兩類小型排序算法:(1)固定排序和(2)變量排序。固定排序算法對固定長度的序列進行排序(例如,sort 3只能對長度為3的序列進行排序),而變量排序算法可以對大小不等的序列進行排序(例如,變量sort 5可以對1到5個元素的序列進行排序)。 在這里,研究者展示了人工智能如何通過發現迄今未知的例程來超越當前的藝術狀態。為了實現這一點,研究者將尋找更好的排序程序作為單人游戲的任務。然后,研究者訓練了一個新的深度強化學習代理AlphaDev來玩這個游戲。 AlphaDev從零開始發現了小型排序算法,這些算法的表現超過了之前已知的人類基準。這些算法已集成到LLVM標準C++排序庫中。對排序庫的這一部分的更改表示用使用強化學習自動發現的算法替換組件。研究者還提供了額外領域的結果,展示了該方法的通用性。 圖1. C++和匯編程序之間的關系 圖2. AssemblyGame和算法的正確性計算 圖3. AlphaDev發現的排序網絡和算法改進 圖4. AlphaDev發現的完全不同的算法 綜上所述,值得注意的是,AlphaDev理論上可以泛化到不需要對測試用例進行徹底驗證的函數。例如,哈希函數和加密哈希函數通過哈希沖突的次數來定義函數的正確性。因此,在這種情況下,AlphaDev可以優化最小化沖突和延遲。 從理論上講,AlphaDev還可以在令人印象深刻的大型功能中優化復雜的邏輯組件。研究者希望AlphaDev能夠在人工智能和程序合成社區提供有趣的見解并激發新的方法。 文獻信息 Mankowitz, D.J., Michi, A., Zhernov, A.?et al.?Faster sorting algorithms discovered using deep reinforcement learning.?Nature?618, 257–263 (2023). https://doi.org/10.1038/s41586-023-06004-9 原文鏈接: https://www.nature.com/articles/s41586-023-06004-9 原創文章,作者:菜菜歐尼醬,如若轉載,請注明來源華算科技,注明出處:http://www.zzhhcy.com/index.php/2024/01/04/a871fc594f/ 頂刊 贊 (0) 0 生成海報 相關推薦 EES后再發PNAS,電池加“酒”,性能暴走! 2023年12月19日 Nature:繪制高倍率電池應用期間的內部溫度圖 2023年10月5日 繼Nature Energy后,崔屹教授再發新作! 2024年3月12日 ?浙大/西交ACS Catal.: 調控ZnO1-x/Cu中氧空位產生,實現CO2穩定轉化為甲醇 2024年5月14日 邵敏華/劉暢/李金成AFM: 雙相碳用于可充電鋅-空電池的雙功能氧電催化劑 2023年10月13日 漢陽大學AEM: 具有高倍率和穩定負極/固體電解質界面的全固態電池 2023年10月23日