末成年小嫩xb,嫰bbb槡bbbb槡bbbb,免费无人区码卡密,成全高清mv电影免费观看

準確率達100%,「人機交互」機器學習,驅動有機反應精確原子映射研究

準確率達100%,「人機交互」機器學習,驅動有機反應精確原子映射研究

編輯?| X

原子到原子映射(Atom-to-atom Mapping,AAM)是識別化學反應前后分子中每個原子位置的任務,這對于理解反應機理非常重要。

近年來,越來越多的機器學習模型用于逆合成和反應結果預測,這些模型的質量高度依賴于反應數據集中 AAM 的質量。雖然有一些算法使用圖論或無監督學習來標記反應數據集的 AAM,但現有方法是基于子結構 alignments 而不是化學知識來映射原子。

在此,來自韓國首爾大學(Seoul National University)和韓國科學技術院(KAIST)的研究團隊,提出了一種 ML 模型——LocalMapper,可通過人機回圈(human-in-the-loop)機器學習從化學家標記的反應中學習正確的 AAM。

研究表明,LocalMapper 通過僅從整個數據集中 2% 的人類標記反應中學習,就能以 98.5% 的校準精度預測 50 K 反應的 AAM。更重要的是,LocalMapper 給出的可信預測覆蓋了 50?K 反應中的 97%,對 3,000 個隨機采樣的反應顯示出 100% 的準確率。

在分布外(Out-of-distribution,OOD)實驗中,LocalMapper 性能優于其他現有方法。研究人員期望 LocalMapper 可用于生成更精確的反應 AAM,并提高未來基于 ML 的反應預測模型的質量。

相關研究以《Precise atom-to-atom mapping for organic reactions via human-in-the-loop machine learning》為題,于 2024 年 3 月 13 日發布在《Nature Communications》上。

準確率達100%,「人機交互」機器學習,驅動有機反應精確原子映射研究

論文鏈接:https://www.nature.com/articles/s41467-024-46364-y

AAM?在化學研究中的重要性

原子到原子映射 (AAM) 通過識別反應物原子和產物原子之間的一對一映射,在準備反應數據中發揮著至關重要的作用。高質量的 AAM 可以快速識別給定化學反應的反應中心,這對于許多已開發的化學反應分析和預測方法至關重要。

AAM 廣泛使用的應用之一是構建縮合反應圖 (CGR)。此外,AAM 還可以自動識別反應中心并從數據庫中提取反應模板,用于預測反應結果和單步逆合成機器學習模型。由于這些應用高度依賴于反應數據的 AAM,因此 AAM 的質量極大地影響機器學習模型的性能。隨著下游模型數量的不斷增加,為反應數據集構建高質量的 AAM 成為確保反應預測模型質量的緊迫任務。

現有的 AAM 識別方法通常可分為基于規則的和基于 ML 的方法。盡管比以前的方法準確度更高,但 AAM 需要 100% 的完美準確度,因為反應數據中的缺陷將在下游反應預測模型中被放大。然而,目前還沒有可靠的方法來檢測可能錯誤預測的 AAM,這使得預測中的錯誤難以識別。

此外,盡管現有的基于 ML 的無監督方法比基于規則的方法要快得多,并且適用于更廣泛的反應,但在不知道正確的 AAM 的情況下訓練模型可能會導致意外錯誤,即使對于簡單的反應也是如此。

三大重要突破

在此,研究人員通過 human-in-the-loop 機器學習提出了一種精確的基于圖的 AAM 模型,名為 LocalMapper。

該研究的重要突破體現在以下三個方面:

  • 所提出的基于知識的不確定性識別允許對 ML 模型預測進行快速化學感知驗證,為 3,000 個隨機采樣的置信預測生成 100% 正確的 AAM。
  • 開發的模型 LocalMapper 通過從人機循環機器學習生成的高質量訓練數據中學習經化學家驗證的 AAM,實現了最先進的 AAM 預測精度。與現有的基于 ML 的模型 RXNMapper 和 GraphormerMapper 相比,僅標記 2% 的反應,顯示出更好的預測精度。
  • 在分布外實驗中,LocalMapper 比兩個現有的基于 ML 的 AAM 模型顯示出良好的預測精度,同時保持置信預測的 100% 準確度。

人機循環機器學習框架

為了訓練 LocalMapper,研究人員手動標記每個反應的 AAM,以保證訓練模型的反應中 AAM 的正確性。由于手動標記化學反應的 AAM 非常耗時(每個反應通常超過一分鐘),因此在大型數據集中標記大部分反應是不切實際的。因此,引入主動學習來僅標記一小部分代表性反應。

整個工作流程可以分解為以下 5 個步驟:

  1. 隨機采樣:為了初始化主動學習過程,從未映射的反應數據集中隨機采樣 k 個反應,其中 k 是人類專家一次性標記 AAM 的一個可承受的小數字。

  2. 標簽和訓練:接下來,手動標記采樣的 k 個反應的 AAM,并使用這些反應來訓練所提出的基于圖的模型 LocalMapper,其結構類似于逆合成模型 LocalRetro 和反應結果預測模型 LocalTransform。從人類繪制的反應中提取的反應模板用于更新模板庫,該模板庫將用于后續的不確定性識別。

  3. AAM 預測:接下來,使用 LocalMapper 來預測數據集中所有反應的反應物和產物之間的原子相關性。根據 LocalMapper 預測的原子-原子相關性,按照 Schwaller 等人引入的原子映射程序生成每個反應的 AAM。

  4. 置信度識別:對于每個預測反應的 AAM,提取反應模板來表示其反應模式。如果提取的反應模板存在于當前模板庫中,則該反應預測的 AAM 集合被認為是置信預測,否則是不確定預測。

  5. 主動采樣:對于從不確定預測中提取的每個唯一模板,從共享最多反應的模板開始對一個反應進行采樣,直到采樣到 k 個反應。然后,這些反應由人類化學家標記,并在下一次迭代中用于訓練模型,重復步驟 2。

從第二次迭代開始,研究人員使用半監督學習來訓練模型,從每個唯一驗證的反應模板的置信預測中采樣 100 個反應,以提高模型的穩健性。這些采樣反應按 9:1 的比例分為訓練集和驗證集,以防止過度擬合。

準確率達100%,「人機交互」機器學習,驅動有機反應精確原子映射研究

圖 1:在生成逆合成反應模板和基于化學知識推導反應機制方面,獲取正確的原子間映射 (AAM) 的重要性。(來源:論文)
LocalMapper

為了預測反應中反應物和產物之間的 AAM,研究人員設計了一個基于圖的模型,稱為 LocalMapper,以了解反應物中的每個原子重新定位到產物中的原子的概率。

與之前的逆合成模型 LocalRetro 和反應結果預測 LocalTransform 類似,使用圖來表示分子,以原子為節點,鍵為邊,并通過反應中原子的局部和全局特征來學習 AAM 通過消息傳遞神經網絡和注意力機制。

準確率達100%,「人機交互」機器學習,驅動有機反應精確原子映射研究

圖 2:使用所提出的模型 LocalMapper 進行 AAM 的人機循環機器學習的總體方案。(來源:論文)

首先,研究人員使用 3 個消息傳遞層對每個原子的局部化學環境進行編碼,并通過 3 個多頭交叉注意塊根據反應物的原子特征更新產物中的原子特征。在反應物和產物之間的每個原子的特征充分傳達后,通過單頭注意力塊計算產物和反應物之間的 AAM 相關性。

使用 Softmax 函數對注意力分數進行歸一化后,估計反應物中的每個原子與產物中的每個原子是相同原子的概率。按照 RXNMapper 中引入的原子映射程序,使用生成的概率從最高概率到最低概率識別從產物到反應物的 AAM。

100% 預測準確率

總之,研究人員提出了一種基于圖的 ML 模型 LocalMapper,以通過人機循環機器學習精確識別大型反應數據集的 AAM。通過利用專業知識手動標記少量反應數據,訓練了人機循環機器學習模型,以精確、自動地標記大量具有相似反應規則的反應。

表 1:手動檢查反應 AAM 前后,RXNMapper、GraphormerMapper 和 LocalMapper 在 USPTO-50K 數據集上的 AMM 結果。(來源:論文)

準確率達100%,「人機交互」機器學習,驅動有機反應精確原子映射研究

對于公開可用的 USPTO-50K 數據集,該模型僅通過學習 2% 的化學家標記反應,就能以 98.5% 的準確率預測 AAM。

表 2:RXNMapper、GraphormerMapper 和 LocalMapper 在四個不同源上檢查的手動映射反應的 AMM 結果。(來源:論文)

準確率達100%,「人機交互」機器學習,驅動有機反應精確原子映射研究

更重要的是,LocalMapper 自信預測的數據集中 97% 的反應的 AAM,表現出 100% 的預測準確率。并且在不同的分布外測試集中也觀察到類似的結果。

研究人員期望所提出的 LocalMapper 可用于為未來的下游反應預測模型提供精確的反應 AAM,并有利于化學界了解更多有關反應數據集的統計見解。

原創文章,作者:計算搬磚工程師,如若轉載,請注明來源華算科技,注明出處:http://www.zzhhcy.com/index.php/2024/04/08/c658ede917/

(0)

相關推薦

主站蜘蛛池模板: 盐城市| 乌拉特前旗| 改则县| 蚌埠市| 铅山县| 滁州市| 简阳市| 三台县| 民丰县| 莎车县| 邹平县| 孝感市| 崇义县| 额敏县| 水城县| 仁寿县| 博客| 高尔夫| 德州市| 绵竹市| 于田县| 修武县| 宿州市| 汶上县| 比如县| 商丘市| 古田县| 广平县| 垣曲县| 大英县| 广南县| 杨浦区| 壶关县| 承德县| 弥勒县| 藁城市| 阳春市| 基隆市| 安塞县| 辽源市| 仪陇县|