末成年小嫩xb,嫰bbb槡bbbb槡bbbb,免费无人区码卡密,成全高清mv电影免费观看

【AI+材料】Nature子刊:基于生成神經網絡的結構預測與材料設計

【AI+材料】Nature子刊:基于生成神經網絡的結構預測與材料設計
預測穩定的晶體結構是設計高性能材料的重要環節。最新研究表明,有效的結構特征表示和生成神經網絡可以創建新的穩定結構,進而用于逆向設計和搜索具有特定功能的材料。在此,阿拉巴馬大學伯明翰分校Cheng-Chien Chen教授,Adam D. Smith教授和Da Yan教授等人在Nature Computational Science發表Comment文章,剖析了生成式神經網絡在材料設計中的最新進展,并展望了材料設計的未來研究方向。
研究背景
當晶體結構確定時,基于量子力學的第一性原理計算可以較為精確地確定材料的物理性質。然而,對于結構未知的材料,預測其性質需要額外的晶體結構預測(Crystal structure prediction,CSP)。CSP可以確定在給定壓強和溫度條件下結構的吉布斯自由能最小值,從而發現在僅給定化學式(以及單位胞內原子數)時的穩態和亞穩態結構。實現這一任務需要精確的勢能面計算和強大的優化算法。
典型的CSP任務通過枚舉成千上萬個可能的結構,并執行相應的能量計算來找到最穩定的結構。對于三元或四元(或更多元)材料,計算量非常高。因此,大規模材料發現仍然具有挑戰性。
最近,生成模型為解決這些挑戰帶來了希望。一旦生成模型訓練完成,它們可以比傳統的CSP技術更快地生成新結構。然而,開發生成模型是具有挑戰性的,因為它需要一個可逆的表示來將三維(3D)晶體映射到特征空間,以及完成相應的反向映射。此外,它還需要一個目標數據庫,該數據庫在統計上代表感興趣的材料體系。盡管存在這些挑戰,最近的一些研究已經證明了使用生成神經網絡高效準確地預測新的穩定晶體結構的可行性。
生成模型
機器學習模型一般可以分為判別模型和生成模型。判別模型專注于預測數據的標簽或在特征空間中確定邊界,而生成模型側重于解釋數據是如何生成的,并試圖對數據在整個空間中的分布進行建模。盡管判別模型可以實現晶體結構到材料性質的直接正向映射,但它們無法像生成模型那樣實現逆向設計(圖1a)。本質上,生成模型學習數據本身的分布,然后從學習到的分布中采樣新的數據實例,這使得探索更多樣化的晶體結構成為可能。在逆向設計領域,有兩種普遍的生成模型:變分自編碼器(Variational autoencoder,VAE)和生成對抗網絡(Generative adversarial network,GAN)(圖1b-c)。
生成模型的一個關鍵點是它們能夠將學習到的潛在特征空間中的任何數據點映射回其在材料空間中相應的晶體結構。在高通量計算中,生成模型比基于替換元素的枚舉可以提供更好的材料組分和結構多樣性,比傳統的CSP技術有更好的結構生成效率。
【AI+材料】Nature子刊:基于生成神經網絡的結構預測與材料設計
圖1. a)  材料性質預測與逆向設計的示意圖;b) 變分自編碼器;c) 生成對抗網絡
VAE由一個編碼器和一個解碼器組成,其訓練目標是使解碼的數據與輸入數據之間的重構誤差最小化。然而,編碼器不是將輸入編碼為潛在空間中的單個點,而是將輸入視為潛在空間上的分布(參數),然后可以對潛在空間中的新數據點進行采樣和解碼。編碼器的分布通常選擇正態分布Nμσ)。使用VAE的代表性結構預測工具包括iMatGen、傅里葉變換晶體特性(Fourier-transformed Crystal Properties,FTCP)框架和約束的晶體深度卷積生成對抗網絡(Constrained Crystals Deep Convolutional Generative Adversarial Network,CCDCGAN)。
具體地,FTCP增加了一個目標學習分支,將潛在點映射到目標屬性(附帶額外的屬性映射損失)。CCDCGAN使用VAE學習從潛在的二維晶體特征到晶體結構的反向映射,然后使用該特征訓練GAN以生成新的晶體結構。VAE的訓練過程相對容易,并且它提供了比其他生成模型更多樣化的結構。然而,VAE具有輸出有效性低的潛在缺點(即生成的一些結果可能時無效的),部分原因是因為假設了特征空間遵循高斯分布。
GAN采用了博弈論的思想,使用了兩個網絡:生成器G,它將潛在空間中的隨機變量z轉換為生成的樣本Gz);鑒別器D,它區分樣本是真實的還是生成的。對GAN進行訓練,使G最大化D將生成的樣本錯誤分類為真實樣本的概率(也就是說,G想要盡可能地“欺騙”D),并且D盡可能地區分真實樣本和生成樣本。這允許G學習真實數據的分布,此外,可以添加另一個網絡分支來預測Gz)的性質,并將此預測包含在損失函數中,以產生具有所需性質的晶體結構,這在CCDCGAN和FTCP框架中都有體現。
CrystalGAN進一步利用跨域的GAN從簡單的二元Pd-H和Ni-H結構開始生成復雜的三元Pa-H-Ni結構。然而,與VAE相比,GAN更難訓練,因為它可能會出現諸如不收斂(模型參數振蕩并且無法收斂),模式崩潰(生成器產生有限的數據)和梯度消失(鑒別器非常成功,生成器梯度消失并且沒有學到任何東西)等問題。因此,總體而言,平衡GAN中的生成器和鑒別器對于防止過擬合至關重要。
特征表示
通常,材料數據庫中的結構以晶體信息文件(CIF)格式存儲,該格式通常用作特征表示的輸入。在連續潛在特征空間中表示離散晶體結構是使用生成模型進行結構預測的第一步。目前主要有兩種方法:一種是連續的三維表示,編碼器和解碼器分別使用二維晶體圖重建三維表示;另一種是矩陣表示,將晶格參數、原子坐標和元素性質等晶體結構特征分配到矩陣的不同行和列中。
在iMatGen中,首先訓練編碼器將三維表示(晶格參數和原子位置)壓縮成一張圖像,然后解碼器根據該圖像重建晶體結構。CCDCGAN考慮使用晶格自編碼器的3D像素表示,它首先將原子位置轉換為像素網格;像素網格進一步轉化為一維矢量,編碼成二維晶體圖。在Composition-Conditioned Crystal GAN中,通過構建元胞參數和原子分數坐標的二維矩陣表示,利用點云表示大大降低了內存需求。FTCP框架通過考慮實空間和倒空間的特征,使用傅里葉變換的元素性質矩陣和米勒指數來得到二維矩陣。在上述特征表示中,從潛在空間到材料空間的可逆映射是必要的。
除了潛在空間與材料空間之間的可逆性外,結構特征表示原則上還需要具有不變性。由于潛在的晶體對稱群,例如,經過晶體軸的平移、旋轉或排列的表示應該是不變的,這意味著它仍然表示相同的潛在空間數據點。然而,實際上目前的研究仍然缺乏一個完全可逆和不變的方案應該探索其他的晶體特征表示。特征表示的另一個潛在問題涉及反向映射期間保真度的損失。換句話說,當一個潛在空間點反向映射回材料空間時,得到的晶體結構與原來的晶體結構不相同。給定的輸入結構在多大程度上可以完全重建,以及重建過程中保真度損失引起的誤差有多大,需要更仔細地確定。
訓練數據
目前的生成模型主要使用的數據庫包括無機晶體結構數據庫(如Inorganic Crystal Structures Database)和計算數據庫(如Materials Project)。為了確保足夠的結構和元素多樣性,通常使用已知晶體結構中的元素替換或數據增強技術來進行額外的高通量計算,以獲得具有統計代表性的數據分布。
例如,iMatGen中的訓練數據是通過從Materials Project中獲取了25種V-O化合物,并將這些化合物替換為10981種二元金屬結構,進而在Materials Project中重新發現了31個現有V-O結構中的26個,以及40個以前未確定的新結構。CCDCGAN研究了Bi-Se系統,而Materials Project數據庫只包含17種已知的Bi-Se材料。訓練數據以類似的方式生成(每個單位晶胞的最大原子數限制為20,最大晶格常數限制為10 ?);9810個結構在使用第一性原理優化時收斂。Composition-Conditioned Crystal GAN研究了Mg-Mn-O體系。訓練數據也是通過Materials Project中三元化合物的元素置換生成的,初始數據集包含1240個結構和112種組分。
通過在單位晶胞中執行旋轉和平移操作實現數據增強,為每種組分產生了1000個結構,從而產生了112000個Mg-Mn-O結構。利用GAN模型創建了9300個獨特的結構用于高通量計算,其中發現了23個新的Mg-Mn-O晶體。這些研究表明,現有的生成模型既能生成真實材料的結構,也能生成新的穩定結構。然而,對于給定的材料系統,每個生成模型都需要單獨訓練并增加數據,現有數據庫仍然太小,無法開發適用于所有材料的全面和通用生成模型。
當然,訓練數據的質量在決定生成神經網絡的性能方面起著至關重要的作用,需要有足夠的數據(105-106),并且具有較高的結構多樣性(103-104),否則在訓練過程中模型可能會產生偏差。除了在開放材料數據庫中對已知結構進行元素替換之外,數據增強和主動學習也會有所幫助。傳統的CSP優化技術也可以通過搜索穩定和亞穩態結構來幫助緩解生成模型的訓練問題。生成模型產生的結果結構可以反過來作為種子結構在CSP搜索中提供。
最后,要實現能量以外的屬性逆設計,需要相應的數據庫(例如,機械、電子和熱輸運屬性)。例如,FTCP框架試圖瞄準帶隙和熱電功率等特性。通過高通量密度泛函理論或力場分子動力學計算,或通過機器學習模擬,如晶體圖卷積神經網絡(CGCNN),可以緩解相關屬性數據庫的缺乏,一旦確定潛在的晶體結構,就可以提供快速的屬性預測。
結論與展望
由于現有的材料特征表示主要基于圖像或編碼的潛在特征向量。盡管像CGCNN這樣的網絡結構已經出現,可以用于從材料到其潛在特征的正向映射以進行屬性預測,但在逆向設計中將它們轉為3D晶體結構的明確公式仍然是一個懸而未決的問題。盡管在開發大規模結構預測和材料設計的未來生成模型方面存在挑戰,但與傳統的優化技術相比,這些模型一旦經過訓練,就可以加快材料發現。理想情況下,生成模型應該能夠解決數據數量有限的小問題的逆向設計,以及具有許多晶體自由度大的問題。
因此,用更少的訓練數據或更廣泛的訓練組分和結構來展示生成模型是未來研究的重要領域。與此同時,受物理啟發的模型,許多研究已經應用圖卷積網絡來生成有機分子,如流動和擴散模型。測試這些模型是否也適用于晶體結構的逆設計將是一件有趣的事情。除了生成模型之外,強化學習,比如在蒙特卡羅樹搜索中,已經被用來發現具有期望特性的材料結構,通過沿著有希望的方向引導結構生長。最后,重要的是要解決機器學習模型是否可以為實際應用提供發現的假設材料的可合成性的度量。例如,FTCP通過檢查生成的結構是否存在于實驗無機晶體結構數據庫中來解決可合成性問題。這方面還需要更多的研究。
文獻信息
Yan, D., Smith, A.D. & Chen, CC. Structure prediction and materials design with generative neural networks. Nat Comput Sci (2023).
https://doi.org/10.1038/s43588-023-00471-w

 點擊閱讀原文,報名計算培訓!


原創文章,作者:計算搬磚工程師,如若轉載,請注明來源華算科技,注明出處:http://www.zzhhcy.com/index.php/2023/10/30/be1f3a1c12/

(0)

相關推薦

主站蜘蛛池模板: 文安县| 宜城市| 营口市| 金沙县| 婺源县| 庆阳市| 兴隆县| 师宗县| 台中县| 仙居县| 玉林市| 修文县| 荥经县| 得荣县| 香格里拉县| 北辰区| 河东区| 乌拉特后旗| 伊春市| 大同县| 车险| 滦南县| 文化| 巍山| 轮台县| 贺兰县| 巫溪县| 兴海县| 石屏县| 神农架林区| 孝感市| 冀州市| 和平县| 石台县| 锡林郭勒盟| 安乡县| 舟山市| 察哈| 资阳市| 普陀区| 区。|