托卡馬克是利用磁約束進行受控核聚變研究的環形裝置,是產生可持續電力的主要候選者。其核心挑戰是在托卡馬克容器內形成和維持高溫等離子體,這需要使用磁致動器線圈進行高維、高頻、閉環控制,且由于各種等離子體配置的不同要求進一步復雜化。在此,英國DeepMind公司Brendan Tracey, Jonas Buchli聯合瑞士洛桑聯邦理工學院Federico Felici等人展示了一種基于深度強化學習(RL)設計的磁控制器,并通過實驗驗證了其在托卡馬克上的性能。該架構可以自主學習控制全套控制線圈,具體通過與托卡馬克模擬器的交互來學習,主要分為三個主要階段:首先,設計者為實驗指定目標,控制目標可能隨時間變化。其次,深度RL算法與托卡馬克模擬器交互,以找到接近最優的控制策略來滿足指定目標。第三,以神經網絡表示的控制策略直接在托卡馬克硬件上實時運行。該策略被證明能夠直接在硬件上進行托卡馬克磁控制,成功地彌合了“模擬到真實”的差距,這實現了從對預先設計狀態的工程驅動控制到由操作員指定目標的AI驅動優化的根本轉變。與傳統設計相比,該架構設計的控制器在結構上大大簡化。RL驅動設計不是一系列控制器,而是創建單個網絡控制器。圖1. 該架構的基礎能力展示作者在可變配置托卡馬克(TCV)上進行的實驗中證明了本研究提出的控制器的有效性,并展示了對各種等離子體形狀的控制,包括簡單拉長的形狀及高級等離子體如負三角形和“雪花”狀等,實現了對這些等離子體的位置、電流和形狀的準確跟蹤。此外,作者還在TCV展示了持續的“液滴”,其中兩個獨立的等離子體同時保持在容器內,這代表了托卡馬克反饋控制的顯著進步。最重要的是,托卡馬克磁控制是已應用RL的最復雜的現實世界系統之一。這是等離子體控制器設計的一個有前途的新方向,更廣泛地說,該方法可以通過聯合優化等離子體形狀、傳感、驅動、壁設計、熱負荷和磁控制器來發現新的反應堆設計,以最大限度地提高整體性能。圖2. 該架構的控制演示Magnetic control of tokamak plasmas through deep reinforcement learning, Nature 2022. DOI: 10.1038/s41586-021-04301-9