編輯?| 紫羅
可合成的分子化學空間是巨大的。要想有效地駕馭這一領域,需要基于計算的篩選技術,如深度學習技術,以快速跟蹤感興趣的化合物發現。
然而,使用算法進行化學發現需要將分子結構轉換為計算機可用的數字表示形式,并開發基于這些表示形式的算法來生成新的分子結構。
近日,來自英國格拉斯哥大學(University of Glasgow)的研究人員,提出了一種基于電子密度訓練的機器學習模型,用于生產主客體 binders。這些以簡化分子線性輸入規范?(SMILES) 格式讀出,準確率 >98%,從而能夠在二維上對分子進行完整的表征。
機器學習模型使用變分自編碼器生成主客體系統的電子密度和靜電勢的三維表示,然后利用這些表示通過梯度下降來優化客體的生成。最后,使用 Transformer 將客體轉換為 SMILES。
模型成功地應用于已建立的分子主體系統,葫蘆脲和金屬有機籠,結果發現了 9 個先前驗證的 CB[6] 客體和 7 個未報告的客體,并發現了 4 個未報告的 客體。
該研究以《Electron density-based GPT for optimization and suggestion of host–guest binders》為題,于 2024 年 3 月 8 日發表在《Nature Computational Science》上。
當前主客體化學研究費力且昂貴
字符串,例如 SMILES,分子以「單詞」表示,例如「C1C=C1」(環丙烯),是最廣泛的分子數字表示形式之一。使用最先進的自然語言處理,這些表示與 AI 技術直接兼容,例如循環神經網絡或 Transformer 模型。
將分子表示為 3D 體積(volume)的優點是可以應用最新的 AI 技術,例如卷積神經網絡。到目前為止,3D 體積作為分子描述符的大多數應用都集中在預測特性或從頭藥物設計上。然而,由于缺乏有效的方法將這些體積與清晰的分子結構相關聯,目前使用 3D 體積作為分子描述符受到阻礙。
在過去的 40 年里,由于分子 containers(中空有機分子或中空超分子結構)傾向于通過將分子與空腔中的體相隔離來改變分子的化學和物理性質,因此主客體系統得到了越來越多的研究。主客體系統具有廣泛的應用,從催化到生物醫學工程、材料科學和反應分子的穩定。
葫蘆脲(CB[n])和金屬有機籠是最成功的分子 containers 設計之一。盡管主客體化學已經取得了顯著的成就,但現有系統中未報道的客體的發現或新的主客體系統的優化,仍然是一個費力且昂貴的迭代過程,阻礙了科學進步的步伐。
一種基于電子密度訓練的機器學習模型
在此,研究證明,將主體分子表示為 3D 體積(即,用靜電勢修飾的電子密度)可以通過計算機輔助發現該主體的客體,而無需了解主體的化學結構之外的主客體系統。
在此過程中,研究人員建立了一個 Transformer 模型,可以通過訓練將 3D 體積分子描述符有效地轉換為 SMILES 表示,從而生成專業化學家可用的分子結構。
研究還發現,通過用靜電勢數據修飾分子的電子密度,可以將分子有效地表示為 3D 體積,并且這兩個特征足以通過使用自回歸采樣方案優化 3D 描述符之間的體積形狀和電荷相互作用來發現主體的客體分子。

Transformer 模型完美地預測了其 SMILES 表示,準確度為 98.125%。單個 token 的預測準確率為 99.114%。Transformer 的解碼器也可以被隔離為純生成模型,如 GPT。
工作流程概述
計算機輔助發現葫蘆脲 CB[6] 和金屬有機籠?的實驗驗證客體需要一個雙層工作流程。首先,設計了一個計算機工作流程來為這兩個主體生成潛在客體分子的虛擬庫。然后建立了體外工作流程,其中包括由化學專家從這些虛擬庫中選擇最有希望的客體候選物進行實驗測試。
CB[6] 和 ?客體分子的計算機生成是通過上圖所示的工作流程實現的,該工作流程包括以下步驟:
(1)3D 電子密度體積訓練集源自公開的 QM9 數據集中的分子。然后,通過使用變分自編碼器(VAE)對這個 3D 電子密度體積訓練集進行建模,創建了一個
「分子生成器」,從而允許生成超出 QM9 數據集派生的 3D 電子密度體積。該 VAE 分子生成器的工作原理是將 3D 電子密度體積編碼到一維 (1D) 潛在空間中,然后通過從該 1D 潛在空間進行解碼來生成與分子相對應的 3D 電子密度體積。有趣的是,這種方法只能產生化學上合理的分子。
(2)VAE 分子生成器和梯度下降優化算法用于為給定的主體分子生成客體分子庫(以 3D 電子密度體積的形式)。客體分子是通過最小化主體和客體電子密度之間的重疊,同時優化它們的靜電相互作用而產生的。
(3)由于人類操作員將 3D 電子密度體積轉換為化學可解釋的結構可能具有挑戰性,因此訓練了 Transformer 模型將這些體積轉換為 SMILES 表示,以一種更容易被專業化學家理解的格式捕獲描述分子所需的所有必要信息。在通過計算機模擬生成 CB[6] 和 ?的潛在客體分子后,建立了體外工作流程來對最有希望的候選分子進行實驗測試。
下面描述了所使用的實驗過程。
(1) 由于其計算機工作流程生成的 CB[6] 和? 的客體由化學專家進行分類以進行實驗測試。有希望進行測試的客體是根據其與 CB[6] 或
的已知客體的結構相似性、專業化學家的直覺及其商業可用性來選擇的。
(2)采用直接滴定法測定 CB[6] 或 ?
的親和力。值得注意的是,在計算機中生成的客體包含先前已知與主體(或密切相關)結合的分子和無視專家直覺的分子的混合物。
兩個常見主客體系統的實驗驗證
研究人員通過實驗驗證了其工作流程,為兩個兩個常見的主客體系統:葫蘆脲(CB[n])和金屬有機籠,成了文獻驗證和未報告的客體。
算法為 CB[6] 生成了 9 個先前已知的客體。還確定了 CB[6] 的 7 個潛在新客體,化學專家認為值得進行實驗測試。CB[6] 對這些新客體的親和力通過在 HCO2H/H2O 1:1v/v 中直接 滴定來評估。
在所有 7 種情況下,都觀察到主客體系統的一組信號,表明該系統在 NMR 時間尺度上進行快速交換。絡合后,客體分子的脂肪鏈共振向上場移動,表明它們被封裝在 CB[6] 腔內。發現?與 CB[6] 的締合常數遵循先前建立的趨勢,范圍從 13.5?M^?1 到 5,470?M^?1。

對于 ,優化算法僅生成未知的客體分子,四種潛在的未報告客體與 [Pd214](BArF)4 之間的結合強度通過 CD2Cl2 中的直接
滴定進行測試。在所有四種情況中,客體對 [Pd214](BArF)4 的親和力與先前報道的 CD2Cl2 中「小型中性客體」的親和力較低范圍一致(Ka 從 44?M^-1 到 529?M^?1)。
雖然研究重點是使用 SMILES 表示法來表示分子,但也測試了其他類似的格式,例如自引用嵌入字符串 (SELFIES)。
盡管 QM9 數據集包含大小完美的分子,可以成為 CB[6] 等主體的客體,但該研究遇到的一個限制是金屬有機籠??具有更大的空腔,需要更大的客體分子。在未來的研究中,將使用包含更大分子的數據集,例如 GDB-17 數據集。
之后,「我們的目標是將新配體的選擇嵌入到生成過程中,在自動化合成平臺(例如 Chemputer 機器人)上自主合成分子,關閉優化和測試之間的循環,創建一個網絡-物理閉環系統。」
原創文章,作者:計算搬磚工程師,如若轉載,請注明來源華算科技,注明出處:http://www.zzhhcy.com/index.php/2024/03/30/3a96018594/