末成年小嫩xb,嫰bbb槡bbbb槡bbbb,免费无人区码卡密,成全高清mv电影免费观看

復旦大學、中國科學院團隊綜述,化學機器學習:基礎知識和應用


ScienceAI 設為星標

第一時間掌握

新鮮的 AI for Science 資訊


復旦大學、中國科學院團隊綜述,化學機器學習:基礎知識和應用

編輯 | 紫羅

在過去的十年里,機器學習和人工智能取得了長足的進步,使我們距離智能機器的實現更近了一步。深度學習方法和增強的數據存儲能力的在這一進步中發揮了關鍵作用。機器學習已經在圖像和語音識別等領域取得了成功,現在它在以復雜數據和多樣化有機分子為特征的化學領域受到了廣泛關注。

然而,由于化學家不熟悉現代機器學習算法,他們在采用機器學習應用時經常面臨挑戰。化學數據集通常表現出對成功實驗的偏見,而平衡的視角需要包含成功和失敗的實驗。此外,文獻中合成條件的不完整記錄也帶來了挑戰。

計算化學可以通過量子力學計算構建數據集,因此更容易接受機器學習應用。盡管如此,化學家需要對機器學習有基本的了解,才能利用數據記錄和機器學習引導實驗的潛力。

近日,復旦大學、中國科學院和貝爾法斯特女王大學(Queen’s University Belfast)的研究人員在《Engineering》上發表綜述文章:《Machine Learning for Chemistry: Basics and Applications》。

該綜述介紹了機器學習的基本組成部分,包括數據庫、特征和算法,并重點介紹了機器學習技術在化學領域取得的一些重要成就。綜述旨在彌合化學家和現代機器學習算法之間的差距,深入了解機器學習在徹底改變化學研究方面的潛力。

復旦大學、中國科學院團隊綜述,化學機器學習:基礎知識和應用

論文鏈接:https://doi.org/10.1016/j.eng.2023.04.013

綜述分為以下幾大部分:

  • 首先介紹了流行的化學數據庫,它為實踐機器學習模型提供了基礎。

  • 其次,提出了一些廣泛使用的二維 (2D) 和三維 (3D) 特征,這些特征將分子結構轉換為機器學習模型可接受的輸入。

  • 第三,簡要概述了流行的機器學習算法,重點介紹了它們的基本理論框架和適合的應用場景。

  • 第四,更詳細地描述了機器學習領域取得重要進展的三個化學領域,包括有機化學中的逆合成、基于機器學習勢的原子模擬和多相催化機器學習。

  • 最后,對未來的機器學習應用進行了展望。

ML 中常用化學數據庫

沒有數據就沒有 AI。因此,數據的可用性是現代機器學習應用的先決條件,其中數據集的大小和質量都很重要。在化學領域,收集和編譯數據的傳統由來已久,數據范圍從元素原子光譜到材料宏觀特性?;瘜W中的數據科學創造了化學信息學學科,這進一步大大有利于機器學習在化學中的應用。

事實上,盡管從頭開始構建大型數據集似乎令人畏懼,但許多化學數據庫早在機器學習時代之前就已經可用。表 1 列出了化學領域比較流行的數據庫,其中許多數據庫都有悠久的數據收集和編譯歷史。這些數據的來源包括開放專利和研究文章、針對特定屬性的高通量實驗以及通?;诿芏确汉碚?(DFT) 的 QM 計算。

表 1:ML 中常用的流行化學數據庫列表。(來源:論文)
復旦大學、中國科學院團隊綜述,化學機器學習:基礎知識和應用

2D 和 3D 特征

數據和特征決定了 ML 模型的上限。從源數據預處理得到的特征(通常也稱為表示或描述符)是 ML 模型的輸入。重要特征的選擇(稱為特征工程)曾經是 ML 模型訓練中最耗時、最費力的工作。雖然深度學習技術可以讓機器學習模型學習如何提取特征本身,但它們通常需要相對較大的訓練數據集和模型參數空間;因此,它們的計算成本較高,最終創建的機器學習模型可解釋性較差。在化學中,不同機器學習模型的輸入特征可能不同,但分子/晶體結構表示是特征工程的一般任務。由于關于該主題的優秀評論文章已經發表,這里僅簡要介紹與 4 個 ML 模型、5 個應用程序中提到的應用程序相關的一些內容。

分子描述符基本上有兩類——即 2D 和 3D 特征。2D 特征關注分子中的鍵合模式,而忽略空間構象。這些特征源自分子圖(以原子為節點,以鍵為邊)或鄰接矩陣(即鍵矩陣)。例如,SMILES 使用人類可讀的字符串(例如,乙醇的CCO)描述飽和分子,IUPAC 的國際化學標識符 (InChI) 使用嚴格唯一但不太人類可讀的字符串來表示化合物。除了字符串之外,分子的拓撲結構也可以抽象為浮點數的向量。使用 Morgan 算法開發的擴展連接指紋(ECFP),迭代地搜索分子中的子結構并將它們編碼為哈希值。

3D 特征是從原子坐標編碼的,由于缺乏排列、平移和旋轉不變性,原子坐標很難成為 ML 模型的直接輸入。優雅的方法旨在保持排列、平移和旋轉不變性,并敏感地區分 3D 中的不同結構。這些方法通常基于從原子間距離和原子間角度導出的數值函數,例如最小埋藏體積百分比、原子中心對稱函數(ACSF)、Steinhardt 型有序參數,以及功率類型結構描述符(PTSD)。其他方法基于原子密度類似函數,包括但不限于平均空間占據(ASO)、原子位置平滑重疊(SOAP)和基于高斯型軌道的密度向量。

流行的 ML 模型

在特征將數據編碼為機器可讀的輸入后,機器學習模型將輸入轉換為輸出,即預測的屬性。機器學習模型不是從理論推導出物理定律,而是在與數據集生成方式相關的易于訪問的變量和相關屬性之間建立數值聯系,而這些屬性通常過于復雜而無法通過理論解決。

從廣義上講,機器學習算法(取決于數據集的學習方式)可以分為三大類:用于擬合標記數據的監督學習、用于對未標記數據進行分類的無監督學習以及利用獎勵機制來指導數據學習的強化學習 。其中,監督學習由于其對特定目標具有更好的數值可預測性,在科學研究中應用最廣泛。盡管 ML 有很多秘訣和類別,但在實踐中實現 ML 并不困難,這要歸功于許多公開可用的軟件包,例如 scikit-learn、PyTorch 和 TensorFlow。

接下來,研究人員介紹了六種常用的機器學習算法:決策樹、 前饋神經網絡、卷積神經網絡、循環神經網絡、圖神經網絡和 Transformer 神經網絡。

復旦大學、中國科學院團隊綜述,化學機器學習:基礎知識和應用

圖 1:六種流行的機器學習模型。(來源:論文)

ML 在化學中的的應用

在這里,列了 ML 的一些重要應用,以說明如何使用這些 ML 技術來解決化學問題,包括有機化學中的逆合成、計算化學中的 ML 勢能以及物理化學中的多相催化。表 2 總結了一些相關文獻,其中列出了有關 ML 任務、輸入數據、特征、ML 模型和預測目標的信息。

表 2:機器學習在逆合成、機器學習勢能和多相催化中的應用總結。(來源:論文)

復旦大學、中國科學院團隊綜述,化學機器學習:基礎知識和應用

逆合成

合成計劃,也稱為逆合成,是化學的核心,回答了如何從現有材料合成所需化合物的問題。在其悠久的歷史中,這項任務在很大程度上依賴于經驗豐富的化學家的知識。

因此,早在 20 世紀 60 年代 Corey 等人提出的計算機輔助合成計劃(CASP)一直是化學領域的熱門話題。此后,許多成功的 CAS P程序被開發出來。

由于有機反應豐富且此類數據庫相對容易訪問,多年來逆合成得到了積極發展,特別是在過去十年中在機器學習技術的幫助下。

反應預測和逆合成是 CASP 中的兩個關鍵模塊。反應預測可以分為兩類:基于模板的方法和無模板的方法。前者需要一個先驗模板庫,該模板庫可以由專家使用化學信息學進行編碼,也可以通過最近流行的原子映射算法從反應數據庫中提取。無模板方法通常側重于預測分子中的反應中心,從而識別最適合連接(斷開)的鍵。

在基于模板的方法中,一種反應物通常會產生太多可能的產物,從而產生過多的候選反應。值得一提的是,基于模板的方法在 CASP 中已經比較成熟,關注點主要包括預測的相關性和模板庫的范圍。ML 模型的訓練中通常必須排除稀有模板。

復旦大學、中國科學院團隊綜述,化學機器學習:基礎知識和應用

圖 2:(a) 基于模板的反應預測的神經符號方法概述;(b) 用于無模板反應預測的 Seq2seq 模型架構;(c) 指導逆合成的 SCScore 模型方案;(d) MCTS 算法說明。(來源:論文)

近年來出現的無模板方法由于質量和完整性而有可能打破基于模板的方法的局限性。

逆合成更為復雜,因為它的目的是提供一條全局最優的合成途徑,這并不像連接最佳的一步反應或選擇最短路線那么簡單。

盡管目前已經有很多成功的研究,但天然產物的合成仍然是一個挑戰。除了復雜分子訓練數據的稀疏性之外,大多數模型中通常缺少對映體的定量產率,但這對于正確評估合成路線非常重要。

機器學習勢能

機器學習在化學中的另一個重要應用與復雜系統的原子模擬有關,其中機器學習勢取代了計算要求較高的 QM 計算來評估 PES。由于 ML 勢是在 QM 計算的數據集上進行訓練的,因此 ML 勢計算可以達到與 QM 相當的精度,但速度要快幾個數量級。因此,ML 勢方法顯著地將原子模擬的領域擴展到具有數千個原子的多元素系統,這可能只能通過傳統的經驗力場來模擬,盡管力場的可用性高度限制于具有相對簡單的 PES 的系統。

自 1995 年第一個 ML 勢出現以來,人們提出了許多不同類型的 ML 模型,以及兩類 ML 架構(表 2),即 NN 勢 和基于 kernel 的勢是最受歡迎的。盡管基于 kernel 的勢,其超參數比神經網絡勢要少得多, 它們的計算速度受到訓練樣本大小的限制。因此,使用基于 kernel 的勢來超越大型訓練集本質上是困難的,它們更適合單元素系統,例如碳和硅。因此,NN 勢正在成為 ML 勢計算的主流。

圖 3:(a) G-NN 勢的 SSW-NN 自學習過程方案。(b) LASP 中實施的雙網絡框架方案。(來源:論文)

用于多相催化的機器學習

由于催化劑結構的復雜性和催化劑在工業中的重要意義,多相催化一直是新技術的主要試驗場。早期的機器學習應用可以追溯到 20 世紀 90 年代,通常處于現象學層面,使用簡單的機器學習模型學習實驗數據來優化催化劑合成和反應條件。這些機器學習應用似乎受到實驗數據集可用性的限制,并且由于缺乏基礎理解,很可能忽略了實驗中隱藏的關鍵變量,導致機器學習模型的失敗。

隨著深度學習和機器學習方法的出現,出現了許多更令人興奮的應用場景,例如機器學習輔助文獻分析和人工智能機器人 。

機器學習輔助文獻分析利用自然語言處理模型的數據挖掘能力,從文獻中提取實驗數據。進一步的數據分析將有助于揭示不同實驗之間的關鍵秘訣。

圖 4:CO2 加氫制甲醇的特征重要性分析。(來源:論文)

化學家機器人被認為是化學的未來,因為它們將自動高效地進行實驗,同時保持實驗之間最大的數據一致性。

從理論角度來看,機器學習模型還可以用于學習低成本的可計算量,例如分子的吸附能和電子能帶結構,這些對于催化很重要 。

另一方面,機器學習原子模擬可以提供有關催化劑結構和反應機理的原子級知識,這有利于催化劑的合理設計。

未來展望

該綜述總結了最近化學領域機器學習應用的關鍵要素,從流行的數據庫到常見特征、現代機器學習模型和標準應用場景。

隨著最近機器學習應用的成功,我們必須認識到機器學習在化學中的使用帶來了許多挑戰。例如,一個主要障礙是缺乏高質量的數據,特別是涉及實驗的數據。即使有了高通量的實驗技術和實驗機器人,化學中仍有許多領域必須由人類來產生實驗數據。此外,化學家通常不熟悉最先進的機器學習方法和相關計算機科學技術,這導致難以為目標應用設計適當的功能。如何自動提取不同化學問題的特征仍然具有挑戰性。最后,大多數基于 FFNN 的機器學習研究很難解釋,因此很難轉移到新的化學問題。

隨著計算設施的快速更新和新的機器學習算法的發展,可以預見更多令人興奮的機器學習應用即將到來,化學研究的未來必將在機器學習時代被重塑。

雖然未來很難預測,特別是在這樣一個快速發展的領域,但毫無疑問,機器學習模型的發展將帶來更好的可訪問性、更通用性、更好的準確性、更智能,從而提高生產力。機器學習模型與互聯網的集成是在世界范圍內共享機器學習預測的好方法。

由于元素類型眾多、材料復雜性高,化學中機器學習模型的可遷移性是一個常見問題。預測通常必須限于應用的數據庫,這只是廣闊的化學空間中的本地數據集。預測的準確性迅速下降超出數據集。隨著新技術的出現,這個問題可能會得到解決,或者使用更好的機器學習模型,可以學習具有大量擬合參數的更復雜的系統。事實上,數據科學家舉辦了各種各樣的機器學習競賽,比如 Kaggle,導致了許多優秀算法的誕生。在這方面,化學問題的公開 ML 競賽仍然有限,需要付出更多努力來促進該領域年輕人才的成長。

對于更智能的機器學習應用,端到端學習是一個有前途的方向,因為它從原始輸入而不是手動設計的描述符生成最終輸出。這些先進的機器學習模型還應該有助于構建更智能的實驗機器人來執行高通量實驗。

參考內容:https://phys.org/news/2023-09-machine-chemistry-basics-applications.html

人工智能 × [ 生物 神經科學 數學 物理 化學 材料 ]

「ScienceAI」關注人工智能與其他前沿技術及基礎科學的交叉研究與融合發展。

歡迎注標星,并點擊右下角點贊在看

點擊讀原文,加入專業從業者社區,以獲得更多交流合作機會及服務。

原創文章,作者:計算搬磚工程師,如若轉載,請注明來源華算科技,注明出處:http://www.zzhhcy.com/index.php/2023/09/17/1bc189a32b/

(0)

相關推薦

主站蜘蛛池模板: 宜春市| 乌鲁木齐县| 白银市| 崇左市| 北海市| 渑池县| 山东| 永寿县| 周宁县| 类乌齐县| 柳州市| 库车县| 交口县| 浙江省| 珠海市| 自贡市| 淳化县| 大新县| 醴陵市| 金堂县| 丰都县| 青川县| 陆川县| 临朐县| 横峰县| 福鼎市| 定陶县| 滨州市| 鹤壁市| 许昌县| 永济市| 沈阳市| 乾安县| 北川| 中卫市| 宁强县| 宜宾县| 灌阳县| 克什克腾旗| 循化| 淮滨县|