基于機器學習(ML)的電池設計方法相對較新,但在加速新材料發現、工藝優化和電池壽命預測方面具有重要的前景。電池建模代表了ML的一個有趣和非傳統的應用領域,數據集通常很小但可能存在對底層過程的某種程度的物理理解。
在此,美國Aionics公司CEO/斯坦福大學兼職教授Austin D. Sendek等人討論和分析了幾個重要且越來越常見的問題:基于ML的電池建模如何進行、需要多少數據、如何判斷模型性能及在小數據體系中構建模型的建議。作者斷言,決定小數據、基于物理的ML方法成功可能性的三個關鍵變量是數據量、可用重要特征的物理信息及數據的潛在維度,而不是任意的數據集大小要求。只要特征集具有足夠的信息或選擇適當的模型類型,ML模型在從小型數據集構建時便具有高度的預測性。
基于以上推斷,作者首先總結了ML模型構建的基礎、誤差度量、過擬合、特征選擇和概率近似正確(PAC)理論等。然后,作者展示了數據集大小和已知物理信息之間在模型性能方面的相互作用,回答了“需要多少數據才能建立模型來預測特定屬性或現象”的問題。
圖1. 欠擬合、過擬合和過參數化
進一步,作者通過討論已發表的案例研究并強調許多ML的應用領域,包括固態鋰離子電解質的發現、液體電解質/正極/負極/非鋰電池材料設計及在循環周期衰減中的應用等,專門討論了這些原則在電池設計背景下的重要性。隨著未來數據庫的增長和更易于訪問,構建新的、快速的ML模型的機會也將相應增加,數據聚合和傳播方面的持續努力對于基于ML方法的持續增長至關重要。
最后,在回顧當前領域時,作者總結了幾個“最佳實踐”主題:
1)模型在捕獲盡可能多的預先存在的領域知識時表現最佳;
2)應仔細考慮模型的靈活性,以避免訓練出對于訓練集來說過于靈活或僵化的模型(從而分別導致過擬合和欠擬合);
3)ML預測的模擬/實驗驗證對于驗證模型和廣泛展示其價值至關重要。
圖2. 數據集大小與特征信息對離子電導率預測誤差的影響
Machine Learning Modeling for Accelerated Battery Materials Design in the Small Data Regime, Advanced Energy Materials 2022. DOI: 10.1002/aenm.202200553
原創文章,作者:v-suan,如若轉載,請注明來源華算科技,注明出處:http://www.zzhhcy.com/index.php/2023/10/08/1dbdf04759/