末成年小嫩xb,嫰bbb槡bbbb槡bbbb,免费无人区码卡密,成全高清mv电影免费观看

Nature Catalysis:機器學習大綜述!數據科學加速催化研究進程!

Nature Catalysis:機器學習大綜述!數據科學加速催化研究進程!
研究背景
數據科學和機器學習(ML)在催化領域早有應用,但當時預測算法僅被用于建立各種催化反應的定量構效關系(QSPR)。直到最近50年,催化界才更廣泛地采用數據驅動方法(圖1a)用于研究。而在最近十年間,催化研究廣泛利用數據科學概念(數據科學通過一系列分析技術(如統計推斷、可視化等)為理解數據提供了基礎和背景)來助力催化研究進程。
近期,蘇黎世聯邦理工學院Javier Pérez-Ramírez等人全面回顧催化研究者如何利用數據驅動策略來解決異相、均相和酶催化的復雜挑戰,強調了該領域的前沿以及催化子學科之間的知識遷移,揭示了催化實驗在數據探索方面的差距,指出數據科學的四大支柱(描述性、預測性、因果性和規范性分析)能彌補這一差距。最后,作者提倡在實驗中采用數據科學方法和數據標準化來促進數字催化的研究。
研究亮點
1、作者對2013-2023年期間的同質、異質和酶催化進行了系統的文獻檢索,并以數據驅動策略解決催化相關問題的不同類型,最后,作者將所有研究分為演繹型或歸納型。
2、作者提倡催化研究人員對數據驅動概念和策略要有基本了解,但數據驅動不會取代人類的直覺或專業知識。在可預見的未來,數據科學將集成到催化研究中,加速實驗設計、數據分析和新知識的創造。
圖文導讀
通過總結眾多的文獻報道,作者確定了催化研究中數據驅動方法的兩個主要目標。一種是通過繪制結構-性質-性能關系圖來驗證假設,實現演繹研究。第二種方法需要確定描述符,以便通過可解釋的ML模型闡明性能。這些研究的重點是通過揭示性能與性質或性質與結構之間的關系來建立新的理論,稱之為歸納研究(圖1b)。這些系統性的文獻分析以及將催化反應歸類為演繹(或歸納方法)的通用模式,為研究提供了一個全新的平臺,讓人們能夠深入了解數據驅動催化研究的全貌(圖1c)。
Nature Catalysis:機器學習大綜述!數據科學加速催化研究進程!
圖1 數據驅動催化研究的發展趨勢以及兩種研究方法
鑒于演繹研究的重要性,作者通過研究數據來源(實驗、模擬、文獻或數據庫)和任務目標(預測、篩選或優化;圖2a)等細節分析了它們的范圍。在異相催化方面,ML主要用于指導密度泛函理論(DFT)計算(約占65%,主要預測吸附能和電催化反應)。在均相催化方面,ML大部分是實驗研究(>60%)。這些研究的目標是篩選最佳底物-溶劑組合等,使用的方法是將催化描述符和工藝參數映射到反應產率和選擇性上。
值得注意的是,酶催化展現了理論與實驗工作的統一,例如,從現有數據庫中檢索不同酶的氨基酸序列,然后通過實驗室工程實現所需的特性,但大多數研究的主要重點在于預測酶的結構或特性,很少應用于化學反應。盡管如此,這些研究對于推動催化轉化用酶的ML輔助定向設計是不可或缺的。接著,作者對異相催化進行了類似的分析,根據驅動力(圖2b)對數據進行了分類,觀察到熱力學性質多于電催化,光催化應用較少。值得注意的是,DFT模擬的數據和文獻提取的數據占絕大多數,其目標僅限于理論研究。這表明在異相催化實驗中對ML和數據科學的探索還不夠。
Nature Catalysis:機器學習大綜述!數據科學加速催化研究進程!
圖2 ML的應用前景的統計分析
考慮到催化是化學的分支學科,起源于經驗科學,數據收集和分析是理解催化現象并最終促成發現的基礎。因此人們致力于開發數據庫,如Open Catalysts Dataset、CatHub、ioChem-BD、Open Reaction Database、Kraken、RetroBioCat等,這些數據庫收錄了有關催化劑結構、性質和性能的信息(圖3),推動了數據驅動催化研究的加速發展。
Nature Catalysis:機器學習大綜述!數據科學加速催化研究進程!
圖3 代表性的催化數據庫
基于數據庫,作者強調了“ML算法的選擇取決于具體任務和數據可用性”。例如基于樹的算法是各學科中最常見選擇(占34%),遠超了人工神經網絡21%的占比(圖4)。出現這種趨勢的原因是,催化數據通常以數值和表格形式表示,而且往往屬于小數據體系,基于樹的模型,如隨機森林等,在處理此類數據集時與神經網絡相比,其更有競爭力或具有更優越的性能。
在圖4(a)-(c)中,均相催化領域,線性回歸固有的表達式為模型提供了更多可解釋性。在酶催化方面,高斯回歸等算法更適合處理大數據,通常用于探索氨基酸序列。
Nature Catalysis:機器學習大綜述!數據科學加速催化研究進程!
圖4 ML建立結構-性質-性能關系
隨著人工智能和ML的不斷進步,將數據驅動方法融入催化研究的前景一片光明。
(1)基于GPT-3.5等語言模型有望在加速化學和催化研究方面發揮關鍵作用。它們先進的自然語言處理(NLP)和文本挖掘能力有助于從科學文獻中高效導航和提取相關信息(圖5a)。這些模型通過自動提取結構的合成手段或材料特性數據,加快了文獻綜述的速度,達到了節省時間和創建化學知識庫的雙重目的。
(2)主動學習在指導實驗、幫助發現和開發高效催化劑方面大有可為。這種方法通過巧妙地平衡探索與開發的概念,縮小潛在反應途徑和優化條件的范圍,從而簡化了化學和參數空間搜索(圖5b)。
(3)生成模型(如變分自編碼器(VAE)、生成對抗網絡(GAN)等)可以加快對未知區域的探索,并創造出具有所需特性的假想分子或材料(圖5c)。雖然它們在化學中的應用還處于起步階段,但VAE和GAN在預測和合成具有目標功能的酶序列方面的成功應用。除了從性質到結構的應用外,它們還可通過從大型反應數據集中學習來預測反應結果,從而提出以前未探索過的反應條件或反應途徑。
(4)深度強化學習(DRL)可促進自主學習和決策,減少了對ab initio計算的需求,并加快了最優反應途徑或催化劑結構(表面)的發現(圖5d)。此外,DRL可以處理多目標問題(同時優化產率和選擇性)。
Nature Catalysis:機器學習大綜述!數據科學加速催化研究進程!
圖5 數據驅動加速催化研究的概覽
雖然前景一片光明,但數據驅動催化的應用還處于起步階段,作者認為人工智能的發展將促使這一新興領域取得更大進展。然而,這需要在實驗催化中更多地采用數據科學方法,但目前的趨勢并不明顯,造成這種差異的因素主要包括:兩個領域之間的知識差距,ML只能在大數據(大于1000個數據點)中發揮良好作用的觀念,以及對數據驅動模型的黑箱性質缺乏信任。為了解決這些問題,作者詳細闡述了描述性分析、預測性分析、因果分析和描述性分析的概念(圖6),希望數據驅動工具和策略在實驗催化領域得到更廣泛的普及和接受。
Nature Catalysis:機器學習大綜述!數據科學加速催化研究進程!
圖6 數據驅動催化研究所面臨的挑戰
數據科學的基本思想是,數據可以為手頭的工作提供見解,而無需過度依賴預測模型。對數據進行統計分析以識別模式和關系,不受理論偏見的影響,被稱為描述性分析。對于大型數據集而言,采用可視化技術對于增強描述性推斷至關重要。例如,網絡圖,用于定量分析所使用的不同類型的活性相、促進劑和支持物,以及它們之間的相互作用頻率;連續變量(如反應條件)的直方圖或小提琴圖,用于了解數據分布;以及選擇性與轉化率映射的二維定位圖,用于產生第三維度(圖7a-c)。至于催化劑篩選,目前多是遵循試錯法,從數據科學的角度來看,催化劑篩選類似于模式匹配,因此非常適合開發以化學為依據的預測分析。根據初步篩選獲得的現有數據,預測分析法可將性能與描述符和反應條件相關聯,提供內推的可能性,在某些情況下還可外推模型,以確定未經測試的催化劑的性能(圖7d),實現節省時間和資源,并確保了更大覆蓋面。
雖然經典的ML算法具有更強的預測能力,但它們通常是具有黑箱性質,對相關催化系統的合理化作用微乎其微。而因果分析是通過不斷迭代的可解釋ML方法,其能夠很好地解釋催化系統。該方法與模型無關,只根據輸入變量對目標變量的貢獻(圖7e)按其重要性排序。此外,還可以結合實驗驗證的數據用于模型的再訓練,以改進目標變量預測,并提出更可靠的實驗改進方案(圖7f)。
Nature Catalysis:機器學習大綜述!數據科學加速催化研究進程!
圖7 數據科學與實驗的結合特點
對于未來,將深度學習算法與先進表征技術相結合,將使實驗人員能夠以更快的速度揭示催化材料的復雜性,并具有預測能力。與人工圖像分析相比,此類算法能減少人為偏差,并提升效率約2000倍(圖8a)。而XAFS和XANES產生的復雜數據集對傳統分析方法提出了挑戰,在此類海量數據集上訓練的深度學習算法可以破譯活性物種局部環境的定量結構信息,包括它們與吸附物的相互作用,并揭示復雜的反應動力學(圖8b)。
Nature Catalysis:機器學習大綜述!數據科學加速催化研究進程!
圖8 實驗與數據科學結合的展望
文獻信息
Suvarna, M., & Pérez-Ramírez, J. (2024). Embracing data science in catalysis research. Nature Catalysis, 1-12.

原創文章,作者:計算搬磚工程師,如若轉載,請注明來源華算科技,注明出處:http://www.zzhhcy.com/index.php/2024/05/17/5eae3beedf/

(0)

相關推薦

主站蜘蛛池模板: 长汀县| 四川省| 乐山市| 莱芜市| 贵港市| 依安县| 甘谷县| 大安市| 永泰县| 澎湖县| 永平县| 南召县| 绥德县| 页游| 甘谷县| 皮山县| 霍山县| 尼玛县| 岢岚县| 肇州县| 沭阳县| 湘阴县| 成安县| 且末县| 濮阳市| 甘洛县| 许昌市| 北安市| 玉田县| 马鞍山市| 延川县| 兴国县| 石林| 宜川县| 大兴区| 清水县| 吉木乃县| 辽宁省| 康定县| 凤凰县| 乌兰浩特市|