末成年小嫩xb,嫰bbb槡bbbb槡bbbb,免费无人区码卡密,成全高清mv电影免费观看

實現量子化學精度,同時規避幾何弛豫瓶頸,深度對比學習用于分子性質有效預測


實現量子化學精度,同時規避幾何弛豫瓶頸,深度對比學習用于分子性質有效預測

編輯?|?紫羅

數據驅動的深度學習算法可以準確預測高級量子化學分子特性。然而,它們的輸入必須限制在與訓練數據集相同的量子化學幾何弛豫水平,從而限制了它們的靈活性。采用替代的經濟有效的構象生成方法會引入域偏移(domain-shift)問題,從而降低預測精度。

近日,來自韓國首爾大學的研究人員提出了一種基于深度對比學習的域適應(domain-adaptation)方法,稱為局部原子環境對比學習(Local Atomic environment Contrastive Learning,LACL)。LACL 通過比較不同的構象生成方法來學習減輕兩種幾何構象之間的分布差異。

研究發現 LACL 形成了一個與域無關的潛在空間,封裝了原子局部原子環境的語義。LACL 實現了量子化學精度,同時規避了幾何弛豫瓶頸,可以實現逆向分子工程和大規模篩選等未來應用場景。該方法也可以從小的有機分子推廣到生物和藥理學分子的長鏈。

該研究以《Deep contrastive learning of molecular conformation for efficient property prediction》為題,于 2023 年 12 月 4 日發布在《Nature Computational Science》上。

實現量子化學精度,同時規避幾何弛豫瓶頸,深度對比學習用于分子性質有效預測

論文鏈接:https://www.nature.com/articles/s43588-023-00560-w

基于機器學習的優化方法,例如強化學習、主動學習和深度生成模型,引起了逆向材料設計和藥物發現的研究興趣。為了在這些應用中以較低的計算成本快速預測未知分子的量子化學性質,圖神經網絡(GNN)已成為一種流行且成功的模型。

為了有效訓練機器學習模型,已經發布了高質量的數據集,例如由 134,000 個有機小分子組成的 QM9 數據集。

在高通量篩選等大規模推理場景中,通過 DFT 準備輸入分子幾何結構不僅耗時且收斂成本高,也是使用訓練模型的瓶頸。使用計算效率高的 Merck 分子力場 (MMFF) 優化方法或基于 ML 的構象生成模型計算的構象可以被視為替代方案。然而,在這種情況下,ML 模型會遭受域偏移,因為它偏離了通過 DFT 計算的先前學習的訓練數據的分布。

實現量子化學精度,同時規避幾何弛豫瓶頸,深度對比學習用于分子性質有效預測

圖示:前人方法與 LACL 方法的分子預測方法比較。(來源:論文)

LACL 專門用于解決分子數據中的域偏移問題

在該研究中,研究人員引入了一種基于深度對比學習的局部原子環境表示學習模型(LACL),專門用于解決分子數據中的域偏移問題。LACL 使用計算高效的幾何松弛方法和 DFT 分子幾何數據捕獲分子數據之間的相似性。通過這種方式,LACL 充分利用了量子化學數據的潛力,并繞過了與從頭開始幾何弛豫相關的計算瓶頸。

研究使用 QM9 和 QMugs 分子特性預測基準來驗證模型的領域適應性能。LACL 根據低保真幾何形狀準確預測分子特性,減少計算成本和推理時間,同時保持量子化學準確性。

在這里,研究人員將術語「幾何域」(geometric domain)定義為分子幾何構象的統計分布,包括通過某些方法生成的原子間距離或三重態角。在該研究中,研究人員考慮從頭計算方法計算的構象,其中包含現有基準數據中存在的初始知識,作為源域。此外,將從計算有效的力場或基于機器學習的構象生成模型獲得的構象視為目標域。主要目標是彌合源域和目標域之間的差距,使模型能夠概括其從源域學到的知識,以便在目標域中做出準確的預測,盡管域發生了變化。

實現量子化學精度,同時規避幾何弛豫瓶頸,深度對比學習用于分子性質有效預測

圖示:LACL 模型概述。(來源:論文)

為了捕捉兩個幾何域之間的細微差異,通過修改利用線圖框架的原子線圖神經網絡(ALIGNN)模型來顯式地建模三體交互。對比學習方法比較由節點表示的局部原子環境的增強,而不是整個分子的增強。LACL是基于 BGRL 框架開發的。考慮到分子線圖的邊緣特征占用大量計算內存,這是一個優點。LACL 在整個管道中進行端到端訓練,同時最小化 BGRL 損失和目標屬性預測損失以防止崩潰。這種訓練策略提供了一種有效的方法來學習分子圖表示,以從分子的不同視圖預測特性。

為快速準確地預測量子化學性質提供機會

LACL 展示了其利用 DFT 幾何域信息來增強 MMFF 幾何域構象預測的能力。這一改進是有意義的,因為它表明有可能僅通過 MMFF 級弛豫而無需額外優化即可實現量子化學精度(小于 1kcalmol^?1 誤差)。這些結果為在精度和計算效率之間尋找最佳構象生成方法提供了機會。

研究人員還評估了 LACL 對開放和緊湊構象異構體的泛化能力。即使考慮到測試分子的數量較少,結果也與之前 1,706 個測試分子觀察到的趨勢非常吻合,總體而言,LACL 顯示出卓越的預測性能。特別值得注意的是它在開放構象異構體中的強大性能,這是通過操縱原始數據獲得的。這個定量實驗表明,在尋找與域無關的表示方面的研究方向可能會擴展到更復雜的系統,例如蛋白質和多肽。

實現量子化學精度,同時規避幾何弛豫瓶頸,深度對比學習用于分子性質有效預測

圖示:開放和緊湊構象中 LACL 性能的研究。(來源:論文)

為了研究學習到的局部原子環境(即節點級嵌入)的含義,研究人員使用 ?t-SNE 來可視化二維空間中這些環境之間的關系。結果表明,局部原子環境不太依賴于原子的原子序數,并且具有相似結構特征的原子形成簇,而不是根據分子本身的屬性進行分組。

實現量子化學精度,同時規避幾何弛豫瓶頸,深度對比學習用于分子性質有效預測

圖示:QMugs20 數據集的 LACL 學習曲線。(來源:論文)

在基態量子化學性質的計算中,LACL 方法可以成為最小化復雜分子幾何結構的額外優化過程的可行替代方法。生成式人工智能的快速發展導致了分子構象生成模型的出現。然而,實現相當于 DFT 等從頭開始構象的數據分布仍然是一個巨大的挑戰,這凸顯了域適應策略的重要性。該研究為快速準確地預測量子化學性質提供了機會。

原創文章,作者:計算搬磚工程師,如若轉載,請注明來源華算科技,注明出處:http://www.zzhhcy.com/index.php/2024/01/05/defc139847/

(0)

相關推薦

主站蜘蛛池模板: 禹城市| 庆云县| 会同县| 来宾市| 中卫市| 如东县| 沿河| 高安市| 乐业县| 东乡族自治县| 轮台县| 财经| 古田县| 日照市| 溆浦县| 新邵县| 海丰县| 凭祥市| 沅江市| 常德市| 汪清县| 乌兰浩特市| 昭觉县| 土默特右旗| 盐津县| 紫金县| 集贤县| 万全县| 新和县| 云南省| 临湘市| 右玉县| 泽库县| 梁山县| 台中县| 合水县| 汝阳县| 铁岭市| 响水县| 宣化县| 大竹县|