成果簡介近年來,二維(2D)材料對析氫反應(yīng)(HER)表現(xiàn)出良好的催化活性。同時,金屬和非金屬原子被用于2D材料催化劑的改性,提高了催化效率。2D材料中,砷烯在光電催化等領(lǐng)域表現(xiàn)出良好的催化性能。因此,砷烯適合作為二維基底材料,能夠獲得更好的HER催化性能。但考慮到材料體系可能有多種調(diào)控方式,會形成一個包含數(shù)千種新材料的大空間。為了解決這一問題,目前研究人員開始建立定量的結(jié)構(gòu)-活性關(guān)系,以克服傳統(tǒng)高通量計算效率低的問題,從而推動材料信息學(xué)的進步。因此,上海交通大學(xué)李金金等人采用SMOTE開發(fā)了一種新的高效集成學(xué)習(xí)分類器,用于雜原子摻雜砷烯HER催化劑。作者共收集了850種摻雜的砷烯作為數(shù)據(jù)集,機器學(xué)習(xí)預(yù)測準(zhǔn)確率為81%。基于預(yù)測結(jié)果,作者提出了13種低成本且易于合成的二維Fe摻雜的砷烯催化材料。本文的方法可以在少量數(shù)據(jù)時,實現(xiàn)高預(yù)測精度,使預(yù)測的速度加快數(shù)百萬倍,并能夠篩選高效催化劑,同時也可以擴展到預(yù)測其他可精細(xì)調(diào)控的二維催化劑。計算及機器學(xué)習(xí)方法計算方法:本文通過VASP軟件進行DFT的第一性原理計算。DFT用于計算模型的電子和能量,Perdew-Burke-Ernzerhof(PBE)的廣義梯度近似(GGA)用于描述電子之間的交換-相關(guān)能。對于平面波基組截斷能設(shè)置為450eV,布里淵區(qū)k點網(wǎng)格采用4×5×1 。考慮到過渡金屬的強電子相關(guān)性,參考前人的工作,本文使用具有U-J參數(shù)的DFT+U。在垂直方向上設(shè)置15?的真空空間,以防止相鄰層之間的相互作用,并確保保持單一的2D結(jié)構(gòu)。SMOTE:在不平衡數(shù)據(jù)的過程中,執(zhí)行的一種過采樣策略,增加初始數(shù)據(jù)集中的數(shù)量。在本研究中,SMOTE算法是用imbleach python庫實現(xiàn)的,用于構(gòu)建合成樣本的最近鄰居數(shù)量設(shè)置為5。機器學(xué)習(xí)GBDT算法:是一種用于回歸和分類任務(wù)的機器學(xué)習(xí)技術(shù)。梯度增強算法有三個主要組成部分:損失函數(shù)、弱學(xué)習(xí)器和加性模型。在本文工作中,GBDT算法的訓(xùn)練是在scikit學(xué)習(xí)python庫的框架內(nèi)進行的,包括數(shù)據(jù)預(yù)處理,ROC曲線計算和混淆矩陣?yán)L制。圖文導(dǎo)讀基于雜原子摻雜劑、選定的過渡金屬元素和非金屬元素,建立了一個包含所有潛在HER催化劑的通用化學(xué)式,其化學(xué)式為Xn-M(雜原子摻雜的砷烯材料),如圖1(a)所示。如圖1(b)所示,選擇砷烯結(jié)構(gòu)的四個位點來進行雜原子的摻雜,其中包括一個過渡金屬摻雜劑和三個非金屬原子。砷烯的側(cè)視圖清楚地顯示了它的雙原子層結(jié)構(gòu)。位點1原子和位點2,3,4原子分別位于不同的層中。在這項工作中,位置1中的雜原子是過渡金屬(TM)原子,位置2、3、4中的原子是非金屬(NM)原子,共有25種過渡金屬元素被選擇用于位點1。如圖1(c)所示,本文從850種改性的砷烯材料中隨機選擇了126種材料,并基于DFT計算了它們的氫吸附能。吉布斯自由能是評估催化活性的方法,本文以吉布斯自由能變化(ΔGH)為分類目標(biāo),篩選出|ΔGH|<0.2eV的材料,并預(yù)測了140種具有不同摻雜原子和摻雜位點的改性砷烯材料作為HER有前途的候選催化劑,ML預(yù)測準(zhǔn)確率為81%。圖1(a)用于結(jié)構(gòu)方面的過渡金屬和非金屬元素的組合;(b) 改性砷烯的俯視圖和側(cè)視圖;(c) 篩選性能優(yōu)異的HER催化劑流程圖本文將隨機選擇126個雜原子摻雜的砷烯材料構(gòu)建ML數(shù)據(jù)庫,其中包含10種過渡金屬元素和13種非金屬共摻雜對。基于DFT計算,得到以上體系的電子結(jié)構(gòu)和HER活性,并用形成能(Ef)來評價體系的穩(wěn)定性,其中大多數(shù)模型顯示出負(fù)的形成能,證明這些材料是穩(wěn)定的。HER是最簡單的電化學(xué)反應(yīng),也是多電子轉(zhuǎn)移的電化學(xué)反應(yīng)基本過程。然而,完整的HER涉及多個過程,并且反應(yīng)途徑根據(jù)電極的性質(zhì)而不同。根據(jù)Sabatier原理,催化劑的H吸附強度和H2解離強度之間需要平衡,這說明這種平衡應(yīng)該允許催化劑強烈地吸附H,但不能太強。熱力學(xué)特征ΔGH用于表征HER催化劑的活性性能,理想催化劑的ΔGH接近0eV。從126個選擇的雜原子摻雜砷烯中,計算出38個Xn-M是|ΔGH|<0.2eV的理想催化劑,其中16個設(shè)計的催化劑表現(xiàn)出|ΔGH|<0.1eV,22個表現(xiàn)出|ΔGH|在0.1-0.2eV之間,如表1所示。表1 雜原子摻雜砷烯HER催化性能的吉布斯自由能變化(ΔGH),其中38個結(jié)構(gòu)顯示出優(yōu)異的催化性能(|ΔGH|<0.2eV)。圖2顯示了Xn-M的計算能壘圖。根據(jù)d軌道的占有情況,本工作中使用的過渡金屬分為三類:3d、4d和5d金屬。在具有3d金屬(Sc、Ti、V、Mn、Fe和Ni)的Xn-M中,大多數(shù)Xn-Fe型模型具有滿足要求的良好HER性能(|ΔGH|<0.2eV),對于4d金屬(Ru和Rh),具有Cn非金屬配位環(huán)境(C1、C2和C3)的模型顯示出接近0eV的理想ΔGH,含有5d金屬(Os和Ir)的模型表現(xiàn)出對H原子的吸附過于強烈的趨勢,將影響后續(xù)的H2釋放。圖2 Xn-Ms能壘圖的計算圖3進一步顯示了不同非金屬配位環(huán)境對所有模型中HER催化活性的影響比較。如圖3(a)所示,具有C摻雜的非金屬配位環(huán)境的13個系統(tǒng)表現(xiàn)出良好的HER活性,并且C原子數(shù)量的增加對HER活性的影響較弱。對于圖中的Nx-M,如圖3(b)所示,只有五個系統(tǒng)顯示|ΔGH|接近0 eV。對于Nx-Fe系統(tǒng),當(dāng)N原子數(shù)增加到3個時,HER催化性能增強。圖3(c)中四個Ox-M體系具有良好的HER催化活性,并且隨著O原子數(shù)的增加,H原子對活性位點的吸附逐漸減少。在S摻雜體系中,S1-V表現(xiàn)出最好的HER催化活性。圖3(d)顯示了由多種非金屬共摻雜的模型,當(dāng)C和N一起形成非金屬配位環(huán)境時,活性位點對H的吸附變得更強。N1O1非金屬配位促進了含Sc和V體系對H的吸附,使N1O1-Sc體系的|ΔGH|接近0eV。當(dāng)N和S共摻雜時,N1S1-Ru、N1S1-Rh和N1S1-Sc對H原子的吸附增強,而H原子對其他體系的吸附減弱。此外,進一步討論了候選催化劑的電子結(jié)構(gòu),對良好的催化活性作出了解釋。圖3 Xn-Ms在不同非金屬配位環(huán)境下的能量比較根據(jù)如圖4(a)數(shù)據(jù)可以看出性能優(yōu)異的模型數(shù)量相對于總數(shù)太少,導(dǎo)致初始數(shù)據(jù)集中的目標(biāo)觀測值分布不均勻。圖4(b)顯示了126種摻雜砷烯材料ΔGH變化的散點圖,最大值為1.38eV,最小值為-1.09eV。本文將0.2eV的絕對值設(shè)置為閾值,將原始數(shù)據(jù)分為兩類。在所有126種摻雜的砷烯材料中,樣本量的不平衡限制了ML模型的預(yù)測性能,為了解決原始數(shù)據(jù)集中數(shù)據(jù)分布不均勻的問題,作者采用了少數(shù)過采樣技術(shù)(SMOTE)來實現(xiàn)數(shù)據(jù)增強,并獲得|ΔGH|<0.2eV和|ΔGH|>0.2eV之間的平衡數(shù)據(jù)分布。如圖4(c)所示,SMOTE處理后的兩類的數(shù)量呈現(xiàn)均勻分布。圖4 (a)126個原始數(shù)據(jù)中的兩類數(shù)據(jù)數(shù)量,包括38個|ΔGH|<0.2eV的結(jié)構(gòu)和88個|ΔGH |>0.2eV的結(jié)構(gòu)(b)通過DFT計算獲得的126種摻雜砷烯材料的ΔGH的散點圖,陰影區(qū)域中的數(shù)據(jù)點表示具有良好催化活性的材料(c) 用SMOTE算法處理數(shù)據(jù)后的兩個類的數(shù)量,包括88個|ΔGH|<0.2eV的結(jié)構(gòu)和88個|ΔGH|>0.2eV的構(gòu)造本文選用了120個元素屬性,并使用Matminer工具生成用于模型訓(xùn)練的特征。隨后選用邏輯回歸(LR)、支持向量機(SVM)、決策樹(DT)和梯度增強決策樹(GBDT)進行機器學(xué)習(xí)模型預(yù)測,并對這4個ML模型進行了5倍的交叉驗證,比較了它們的準(zhǔn)確性。四個模型的ROC曲線如圖5(a)所示。顯然,圖5(a)中的藍(lán)色曲線對應(yīng)的區(qū)域更大,表明GBDT模型在測試數(shù)據(jù)中具有更高的精度。四個模型在CV過程中每一次交叉驗證的性能如圖5(b)所示。四個模型的平均精度值分別為0.81(GBDT)、0.73(DT)、0.54(SVM)和0.65(LR)。此外,四個模型的混淆矩陣如圖所示5(c)所示,根據(jù)對比分析,混淆矩陣進一步證明GBDT模型的性能更優(yōu)異。根據(jù)這一比較,選擇GBDT作為ML模型來進行改性砷烯的分類,其預(yù)測準(zhǔn)確率為81%。基于GBDT模型,作者將剩余的724種潛在催化劑分為兩類,其中140種新的砷烯材料被預(yù)測對HER具有良好的催化活性。圖5 (a)梯度增強決策樹(GBDT)、決策樹(DT)、支持向量機(SVM)和邏輯回歸(LR)的ROC曲線和AUC的對應(yīng)值(b) GBDT的五倍交叉驗證結(jié)果,平均準(zhǔn)確度為0.81(c) 四種不同模型的混淆矩陣,其中(0,0)、(1,0)、(0,1)和(1,1)中的數(shù)據(jù)是真正(TP)樣本、假負(fù)(FN)樣本、偽正(FP)樣本和真負(fù)(TN)樣本的數(shù)量為了選擇應(yīng)用更廣泛的砷烯材料,需要考慮摻雜金屬元素的毒性、放射性和成本。因此,作者去除了昂貴、稀缺或有毒金屬,留下99個元素。隨后篩選了21個Xn-Ms表現(xiàn)出優(yōu)異的催化活性(|ΔGH|<0.2eV),其中大部分是含F(xiàn)e原子的模型。由于在實驗催化研究中,成功合成了具有Fe原子的材料,并證明其具有高催化活性。選擇了13種|ΔGH|低于0.2eV的Fe摻雜砷烯材料作為易于制備、低成本和高活性的催化劑,ΔGH的值如圖6所示。在這13種的材料中,CNO-Fe改性的砷烯表現(xiàn)出最低的|ΔGH|,為0.009eV,S3-Fe改性的砷烯顯示出最高的ΔGH,為0.195eV。這13種材料有望成為實驗合成和實際應(yīng)用中最有前途的2D砷烯催化劑材料。圖6 Fe摻雜砷烯及其相應(yīng)的ΔGH,其中CNO-Fe改性砷烯表現(xiàn)出最低的|ΔGH|,而S3-Fe改性砷烯表現(xiàn)出最高的|ΔGH|結(jié)論與展望本文以單個過渡金屬和三個非金屬雜原子摻雜2D砷烯材料為例,介紹了一種通過機器學(xué)模型從元素周期表中選擇高性能催化劑的方法,并證明了所提出的SMOTE算法可以處理材料數(shù)據(jù)不平衡的問題,并應(yīng)用GBDT算法對整個材料空間進行分類,最終篩選出140種有前途的HER催化劑,并結(jié)合DFT計算做出進一步驗證,為其他復(fù)雜材料的機器學(xué)習(xí)預(yù)測奠定了基礎(chǔ)。文獻信息Chen A, Cai J, Wang Z, et al. An ensemble learning classifier to discover arsenene catalysts with implanted heteroatoms for hydrogen evolution reaction[J]. Journal of Energy Chemistry, 2023, 78: 268-276.https://doi.org/10.1016/j.jechem.2022.11.035