TSDiff 預測分布的概念說明。(來源:論文)
編輯?|?X
過渡態(tài)(TS)探索對于闡明化學反應機制和動力學建模至關重要。最近,機器學習模型在 TS 幾何形狀(geometries)預測方面表現(xiàn)出了卓越的性能。然而,它們通常需要反應物和產(chǎn)物的 3D 構象,并以其適當?shù)姆较蜃鳛檩斎耄@需要大量的努力和計算成本。
近日,韓國科學技術院(KAIST)的研究人員提出了一種基于隨機擴散方法的生成方法,即 TSDiff,用于僅從 2D 分子圖預測 TS 幾何形狀。TSDiff 在準確性和效率方面均優(yōu)于現(xiàn)有的具有 3D 幾何形狀的 ML 模型。
此外,它能夠對各種 TS 構象進行采樣,因為它在訓練中學習不同反應的 TS 幾何分布。因此,與參考數(shù)據(jù)庫相比,TSDiff 能在較低的勢壘高度找到更有利的反應途徑。這些結果表明,TSDiff 在高效、可靠的 TS 探索方面顯示出巨大的潛力。
該研究以「Diffusion-based generative AI for exploring transition states from 2D molecular graphs」為題,于 2024 年 1 月 6 日發(fā)布在《Nature Communications》上。
過渡態(tài)研究現(xiàn)狀
過渡態(tài)是指一種瞬態(tài)分子構型,位于反應物通過最小能量路徑到達產(chǎn)物的能壘之上,對應于勢能面(PES)上的鞍點。識別 TS 是化學反應分析中的一項重要任務。盡管 TS 幾何形狀由于其瞬態(tài)性質而難以通過實驗觀察,但可以使用量子化學計算方法獲得它們。
在過去的幾十年里,開發(fā)了各種 TS 優(yōu)化技術并應用于許多化學反應,從而提供了對不同化學現(xiàn)象的見解。
TS 優(yōu)化方法主要有兩大類:單端方法和雙端方法,具體取決于輸入類型。前者依賴于一組反應物的 3D 幾何形狀或估計的 TS。雙端方法利用反應物和產(chǎn)物的 3D 幾何形狀。雖然這些傳統(tǒng)方法在實踐中被廣泛使用,但它們需要大量的計算成本,并且經(jīng)常出現(xiàn)收斂問題,使得 TS 探索成為一項相當艱巨的任務。
最近,人們對使用機器學習 (ML) 方法來研究 TS 越來越感興趣,目的是降低傳統(tǒng)方法的高成本。例如,已經(jīng)進行了大量研究來直接估計勢壘高度。然而,該研究重點關注 TS 幾何形狀的預測。
傳統(tǒng)方法和機器學習方法都需要為 3D 分子幾何形狀進行適當?shù)妮斎霚蕚洹H欢娝苤瑐鹘y(tǒng)方法的結果對輸入結構很敏感。機器學習方法還采用反應物和產(chǎn)物的 3D 構象作為輸入。因此,它們不可避免地會遇到相同的輸入靈敏度問題。
隨機生成模型:TSDiff
為了解決這個問題,KAIST 研究人員提出了這是一種機器學習模型——TSDiff,可以學習 TS 構象和 2D 分子圖之間的直接映射。因此,人們可以跳過構象和方向的正確選擇。
此外,TSDiff 可以采用隨機擴散方法從 2D 圖中生成各種可能的 TS 構象,可靠性高。因此,TSDiff 可以在整個 TS 生成過程中最大限度地減少用戶的工作量,并在不直接考慮構象的情況下探索多種反應途徑,從而實現(xiàn)高效率。
研究人員使用 Grambow 的數(shù)據(jù)集評估了 TSDiff 的性能。盡管簡化了 2D 圖的輸入,但與依賴 3D 幾何信息的現(xiàn)有方法相比,TSDiff 的準確率最高。
TSDiff 是一個隨機生成模型,這意味著每次采樣都會生成不同的幾何形狀。TSDiff 生成的不同幾何形狀對應于可以從相同的 2D 反應圖構建的特定 TS 構象。例如,下圖顯示了與測試集中三個反應的特定構象和參考幾何形狀相對應的幾個生成的幾何形狀。
通過基于 DFT 的量子化學計算驗證了 TSDiff 生成的多個 TS 構象的有效性。首先,對生成的幾何形狀進行鞍點優(yōu)化,得到具有單一虛振動頻率的 TS 幾何形狀。隨后進行內稟反應坐標 (IRC) 計算,以驗證 TS 幾何形狀是否對應于給定的圖定義的反應。TSDiff 在此驗證中取得了 90.6% 的極高成功率,顯示了其作為初始 TS 幾何猜測器的可靠性。
基于這些結果,研究人員表示:「我們期望 TSDiff 能夠極大地減輕 TS 探索過程中耗時的試錯過程。我們還在鞍點發(fā)現(xiàn)了 2303 個新的 TS 構象,而不是使用 TSDiff 對測試集中的 1197 個反應進行八輪采樣。其中一些對應于比參考文獻更低的勢壘高度,表明更有利的反應途徑。」
未來潛力
TSDiff 的主要優(yōu)點之一是它能夠在不考慮反應物和產(chǎn)物的構象及其排列的情況下找到 TS。由于 TSDiff 不依賴于特定構象,因此它允許使用更通用的方法在圖定義的反應中有效探索 TS。
TSDiff 能夠有效捕獲非反應坐標和不同反應坐標中可旋轉鍵產(chǎn)生的 TS 構象。此外,TSDiff 也被證明是一個有效的初始 TS 猜測器,在后續(xù) TS 優(yōu)化過程中只需要少量的強制調用。總的來說,該研究結果證明了 TSDiff 作為高效可靠的 TS 探索的有前途的方法的潛力。
這些發(fā)現(xiàn)表明,隨機擴散方法可以在平衡狀態(tài)下準確地創(chuàng)建多種構象異構體,可擴展到 TS 探索。
然而,研究也有局限性,特別是它目前對有機反應的限制。盡管存在無機數(shù)據(jù)庫,但缺乏大型無機反應數(shù)據(jù)庫限制了機器學習方法在該領域的適用性。
隨著未來數(shù)據(jù)的不斷積累,研究人員表示 TSDiff 的用途將擴大到涵蓋更廣泛的化學反應,包括涉及無機物質的化學反應。
原創(chuàng)文章,作者:計算搬磚工程師,如若轉載,請注明來源華算科技,注明出處:http://www.zzhhcy.com/index.php/2024/01/12/8c3e95acfd/