氣體分離對于工業生產和環境保護至關重要,金屬有機框架(MOF)由于其獨特的性能而成為氣體分離領域一種有前途的材料。
傳統的模擬方法,如分子動力學,復雜且計算量要求高。雖然基于特征工程的機器學習方法表現更好,但由于標記數據有限,很容易出現過度擬合。此外,這些方法通常是針對單一任務而設計的。
為了應對這些挑戰,由清華大學、加州大學、中山大學、蘇州大學、深勢科技和北京科學智能研究院(AI for Science Institute,Beijing,AISI) 組成的多機構團隊,合作提出了 Uni-MOF,一種用于大規模三維 MOF 表示學習的創新框架,專為多用途氣體預測而設計。Uni-MOF 既適合科學研究又適合實際應用。
具體來說,Uni-MOF 可用作 MOF 材料的多功能氣體吸附估算器。對于模擬數據,Uni-MOF 在所有數據集上都表現出非常高的預測精度。Uni-MOF 是機器學習在氣體吸附領域的開創性實踐。
該研究以「A comprehensive transformer-based approach for high-accuracy gas adsorption predictions in metal-organic frameworks」為題,于 2024 年 3 月 1 日發布在《Nature Communications》上。
論文鏈接:https://www.nature.com/articles/s41467-024-46276-x
需要一個統一的吸附框架
金屬有機框架(MOF)因其可調節的結構特性和化學成分被廣泛應用于氣體分離等領域。
雖然 MOF 在氣體吸附方面的潛力很大,但準確預測其吸附容量仍然是一個挑戰。
分子動力學、蒙特卡羅(MC)等計算方法,計算成本高且實施復雜,限制了它們在大規模、多氣體和高通量計算。此外,氣體吸附的操作條件范圍廣,使預測變得更加復雜。
圖神經網絡和 Transformers 已被證明可以成功預測 MOF 屬性。
盡管現有的預測吸附特性的模型具有高性能和強大的預測能力,但它們通常是為單一任務而設計的,特別是預測特定條件下特定氣體的吸附吸收率。然而,這些單一任務預測的可用數據集通常是有限的,從而阻礙了模型的通用性。
另一方面,來自不同溫度和壓力環境下的各種吸附氣體的標記數據的組合可以創建適合整個工作條件下訓練的大量數據集。增加的數據量還可以增強模型的泛化能力,并改善其實際工業用途。因此,需要一個統一的吸附框架來推進這些模型。
此外,針對大規模未標記 MOF 結構集成表示學習,或預訓練,可以進一步提高模型性能和表示能力。
Uni-MOF 框架:既適合科學研究又適合實際應用
受此啟發,研究團隊提出 Uni-MOF 框架作為一種多用途解決方案,使用結構表示學習來預測不同條件下 MOF 的氣體吸附。
與其他基于 Transformer 的模型(例如 MOFormer 和 MOFTransformer)相比,Uni-MOF 作為基于 Transformer 的框架,不僅可以在預訓練中識別和恢復納米多孔材料的三維結構,從而大大提高了納米多孔材料的穩健性。而且微調任務還進一步考慮了溫度、壓力和不同氣體分子等操作條件,這使得 Uni-MOF 既適合科學研究又適合實際應用。
Uni-MOF 作為 MOF 材料的綜合氣體吸附估計器,僅需要 MOF 的晶體信息文件 (CIF) 以及相關氣體、溫度和壓力參數,就可以在廣泛的操作條件下預測納米多孔材料的氣體吸附特性。Uni-MOF 框架易于使用并允許模塊選擇。
此外,通過將各種跨系統吸收標記數據與大量未標記結構數據的表示學習相結合,有效解決了過度擬合的問題。這彌補了高質量數據和數據不足的不足,最終提高了氣體吸附預測的準確性。
Uni-MOF 框架實現了原子級別的材料識別精度,而集成模型使 Uni-MOF 更適用于工程問題。毫無疑問,實現真正統一的模型是材料領域未來的方向,而不僅僅是專注于專業領域。Uni-MOF 是機器學習在氣體吸附領域的開創性實踐。
Uni-MOF 框架概述
Uni-MOF 框架包括三維納米多孔晶體的預訓練和下游應用中多任務預測的微調。
三維晶體材料的預訓練顯著增強了下游任務的預測性能,特別是對于大規模未標記數據。
為了解決訓練數據集監督不充分的問題,研究人員收集了大量的 MOF 結構數據集,并使用 ToBaCCo.3.0 生成了超過 300,000 個 MOF。基于材料基因組策略和準反應組裝算法 (QReaxAA) 的 COF 的高通量構建是可行的,從而建立一個全面的 COF 庫。通過材料的空間構型,Uni-MOF 能夠很好地學習材料的結構特性,最重要的是化學鍵信息。
為了使 Uni-MOF 能夠學習更多樣化的材料,從而提高對更廣泛材料的泛化能力,在預訓練過程中通過虛擬和實驗方式引入了 MOF 和 COF。與 BERT 和 Uni-Mol 中的掩蔽標記任務類似,Uni-MOF 采用掩蔽原子的預測任務,從而促進預訓練模型深入了解材料空間結構。
為了增強預訓練的穩健性并推廣學習到的表示,研究人員向 MOF 的原始坐標引入了噪聲。在預訓練階段,設計了兩個任務。(1)從噪聲數據中重建原始三維位置,(2)預測屏蔽原子。這些任務可以增強模型的穩健性并提高下游預測性能。
除了多樣化的空間構型之外,一套全面的材料屬性數據點對于模型訓練也至關重要。為了豐富數據集,研究人員建立了自定義數據生成流程(如圖 1b 所示)。
Uni-MOF 的微調基于通過預訓練獲取的表示的提取,以及使用自制工作流程生成和收集大量數據集。在微調過程中,使用 MOF 和 COF 各種吸附條件下的約 3,000,000 個標記數據點來訓練模型,從而能夠準確預測吸附容量。
憑借跨系統目標數據的多樣化數據庫,經過微調的 Uni-MOF 可以預測 MOF 在任意狀態下的多系統吸附特性。因此,Uni-MOF 是一個統一且易于使用的框架,用于預測 MOF 吸附劑的吸附性能。
最重要的是,Uni-MOF 無需額外的人工來識別人類定義的結構特征。相反,MOF 的 CIF 以及相關氣體、溫度和壓力參數就足夠了。自監督學習策略和豐富的數據庫確保 Uni-MOF 能夠預測納米多孔材料在各種操作參數下的氣體吸附特性,從而使其成為一種熟練的 MOF 材料氣體吸附估計器。
預測精度高達 0.98,可跨系統預測
該研究對包含超過 631,000 個 MOF 和 COF 的數據庫進行了自監督學習,預測精度高達 0.98。這表明基于三維預訓練的表示學習框架有效地學習了 MOF 的復雜結構信息,同時避免了過擬合。
應用 Uni-MOF 對三大數據庫(hMOF_MOFX-DB,CoRE_MOFX-DB 和 CoRE_MAP_DB)的氣體吸附性能進行了預測,在數據充足的數據庫中取得了高達 0.98 的預測精度。
在數據集充分采樣的情況下,Uni-MOF 不僅保持了 0.83 以上的預測精度,而且僅通過預測低壓下的吸附,就能準確選擇高壓下的高性能吸附劑,與實驗篩選結果一致。因此,Uni-MOF 代表了材料科學領域在機器學習技術應用方面的重大突破。
此外,與單系統任務相比,Uni-MOF 框架在跨系統數據集上表現出優越的性能,可以準確預測未知氣體的吸附特性,預測精度高達 0.85,展示了其強大的預測能力和通用性。
研究表明,預訓練的自監督學習策略可以有效提高 Uni-MOF 的穩健性和下游預測性能。
通過對三維結構進行廣泛的預訓練,Uni-MOF 有效地學習了 MOF 的結構特征,實現了 hMOF 的 0.99 的高決定系數。
此外,t-SNE(t 分布隨機鄰域嵌入)分析證實,微調階段可以進一步學習結構特征,并且可以很好地識別具有不同吸附物行為的結構,這表明學習的表示與氣體吸附目標之間存在很強的相關性。
總之,Uni-MOF 框架作為 MOF 材料的多功能預測平臺,充當 MOF 的氣體吸附估計器,在預測不同操作條件下的氣體吸附方面具有很高的精度,在材料科學領域具有廣泛的應用前景。
原創文章,作者:計算搬磚工程師,如若轉載,請注明來源華算科技,注明出處:http://www.zzhhcy.com/index.php/2024/03/07/f931a215d0/