
機(jī)器學(xué)習(xí)力場(chǎng) (MLFF) 技術(shù)正蓬勃發(fā)展。然而,要實(shí)現(xiàn)現(xiàn)實(shí)分子的預(yù)測(cè)性 MLFF 模擬,仍有幾個(gè)挑戰(zhàn)有待解決,包括:(1) 為非局部原子間相互作用開(kāi)發(fā)有效的描述符,以及 (2) 降低描述符的維度增強(qiáng) MLFF 的適用性和可解釋性。
盧森堡大學(xué)的研究團(tuán)隊(duì)提出了一種自動(dòng)化方法來(lái)大幅減少原子間描述符特征的數(shù)量,同時(shí)保持準(zhǔn)確性并提高 MLFF 的效率。研究人員發(fā)現(xiàn)非局部特征(在所研究的系統(tǒng)中原子相隔 15 ?)對(duì)于保持 MLFF 對(duì)肽、DNA 堿基對(duì)、脂肪酸和超分子復(fù)合物的整體準(zhǔn)確性至關(guān)重要。
有趣的是,減少的描述符中所需的非局部特征的數(shù)量變得與局部原子間特征(小于 5 ?)的數(shù)量相當(dāng)。這些結(jié)果為構(gòu)建全局分子 MLFF 鋪平了道路,其成本隨系統(tǒng)大小呈線性增長(zhǎng),而不是呈二次方增長(zhǎng)。
該研究以「Efficient interatomic descriptors for accurate machine learning force fields of extended molecules」為題,于 2023 年 6 月 15 日發(fā)布在《Nature Communications》。
可靠的原子力場(chǎng)對(duì)于研究(生物)化學(xué)系統(tǒng)的動(dòng)力學(xué)、熱力學(xué)和動(dòng)力學(xué)至關(guān)重要。機(jī)器學(xué)習(xí)力場(chǎng) (MLFF) 最近成為構(gòu)建能量和力的原子表示的一種選擇方法。
與傳統(tǒng)的計(jì)算化學(xué)方法相反,MLFF 使用參考計(jì)算的數(shù)據(jù)集來(lái)估計(jì)函數(shù)形式,這些函數(shù)形式可以恢復(fù)分子構(gòu)型與其相應(yīng)的能量或力之間的復(fù)雜映射。該策略允許為從小有機(jī)分子到散裝凝聚材料和界面的各種系統(tǒng)構(gòu)建 MLFF,相對(duì)于參考從頭算計(jì)算,能量預(yù)測(cè)誤差低于 1 kcal mol^-1。
MLFF 的應(yīng)用已經(jīng)包括了解材料中電子和結(jié)構(gòu)轉(zhuǎn)變的起源、計(jì)算分子光譜、模擬化學(xué)反應(yīng)以及模擬分子的電子激發(fā)態(tài)。盡管 MLFF 取得了這些巨大的成功,但仍然存在許多開(kāi)放的挑戰(zhàn)。例如,MLFF 模型對(duì)較大分子的適用性有限,部分原因是描述符維度的快速增長(zhǎng)。
用于編碼分子配置的描述符決定了 MLFF 捕獲分子中不同類型相互作用的能力。因此,描述符旨在包含強(qiáng)調(diào)系統(tǒng)特定方面的特征,或強(qiáng)調(diào)不同材料之間的相似化學(xué)/物理模式。學(xué)界已經(jīng)提出了許多不同的描述符來(lái)為廣闊的化學(xué)空間的特定子集構(gòu)建成功的 MLFF。但是,不能保證給定的描述符能夠準(zhǔn)確描述表征柔性分子系統(tǒng)的高維勢(shì)能面(PES)中的所有相關(guān)特征。這里的主要挑戰(zhàn)是平衡給定 ML 模型所需的特征數(shù)量,從而描述短期和長(zhǎng)期交互之間的相互作用。
理論上,ML 模型應(yīng)該能夠正確描述 (i) 遠(yuǎn)程交互的非可加性,(ii) 這種交互對(duì)交互對(duì)象環(huán)境的強(qiáng)烈依賴性,(iii) 導(dǎo)致遠(yuǎn)程相互作用的多尺度性質(zhì)的非局部反饋效應(yīng)。解決這些特征需要開(kāi)發(fā)靈活且同時(shí)準(zhǔn)確高效的 MLFF,而無(wú)需使用嚴(yán)格預(yù)定義的交互功能形式或強(qiáng)加特征長(zhǎng)度尺度。
或者,可以切換到所謂的全局描述符,例如庫(kù)侖矩陣,其中考慮了所有原子間距離。不幸的是,這樣的全局描述符與系統(tǒng)大小呈二次方關(guān)系。此外,減少全局模型中的描述符維數(shù)是一個(gè)未解決的挑戰(zhàn)。
為了應(yīng)對(duì)這些挑戰(zhàn),盧森堡大學(xué)的研究團(tuán)隊(duì)提出了一種自動(dòng)程序,用于識(shí)別與大型和柔性分子的描述最相關(guān)的全局描述符中的基本特征。
圖示:描述符縮減方案概述。(來(lái)源:論文)
研究人員應(yīng)用開(kāi)發(fā)的方法來(lái)識(shí)別各種目標(biāo)系統(tǒng)的有效表示,包括小分子、超分子復(fù)合物和所有四大類生物分子(即蛋白質(zhì)、碳水化合物、核酸和脂質(zhì))的單位:阿司匹林(21 個(gè)原子)、「巴基捕手」(148 個(gè)原子)、丙氨酸四肽(Ac-Ala3-NHMe,42 個(gè)原子)、乳糖二糖(45 個(gè)原子)、腺嘌呤-胸腺嘧啶 DNA 堿基對(duì)(AT-AT,60 個(gè)原子)、棕櫚酸脂肪酸(50 個(gè)原子)。使用減少的描述符可以提高預(yù)測(cè)準(zhǔn)確性,并將計(jì)算效率提高兩到四倍。
圖示:減少描述符的模型的準(zhǔn)確性。(來(lái)源:論文)
大分子的高效建模需要低維度的描述符,其中包括特定預(yù)測(cè)任務(wù)的相關(guān)特征。新方法除了提高效率之外,與使用默認(rèn)全局或局部描述符構(gòu)建的模型相比,此類描述符還提高了 ML 模型的準(zhǔn)確性。這是簡(jiǎn)化了應(yīng)該由 ML 模型在縮小的描述符空間中學(xué)習(xí)的交互模式的結(jié)果。由此產(chǎn)生的 MLFF 允許進(jìn)行長(zhǎng)時(shí)間的分子動(dòng)力學(xué)模擬,從而證明在訓(xùn)練集中表示的 PES 區(qū)域中的穩(wěn)定行為。
對(duì)與準(zhǔn)確能量/力預(yù)測(cè)相關(guān)的非局部描述符特征的詳細(xì)分析顯示了非平凡的模式。這些模式與分子結(jié)構(gòu)和組成有關(guān),平衡了與描述符特征相關(guān)的相互作用強(qiáng)度和這些特征提供的有關(guān)原子漲落的統(tǒng)計(jì)信息。研究表明,與大至 15? 的原子間距離相關(guān)的描述符特征,可以在描述非局部相互作用中發(fā)揮重要作用。該團(tuán)隊(duì)列舉的實(shí)例涵蓋了所有四大類生物分子和超分子的單元,因此得出的結(jié)論適用于范圍廣泛的(生物)化學(xué)系統(tǒng)。
這里提出的描述符縮減方案的主要應(yīng)用是生成的全局描述符與原子數(shù)的線性比例。研究人員發(fā)現(xiàn)大分子的全局描述符被過(guò)度定義,并且可以僅使用少數(shù)描述集體遠(yuǎn)程相互作用的遠(yuǎn)程特征來(lái)構(gòu)建同樣準(zhǔn)確的模型。如果有可靠的參考數(shù)據(jù)可用,這種行為似乎是大分子系統(tǒng)的普遍現(xiàn)象。
總體而言,該工作在機(jī)器學(xué)習(xí)力場(chǎng)的廣泛領(lǐng)域取得了實(shí)質(zhì)性突破。這些突破包括(i)展示了大型系統(tǒng)的全局 MLFF 線性縮放的潛力,(ii)分析有助于準(zhǔn)確預(yù)測(cè)的非局部原子間特征,(iii)在長(zhǎng)時(shí)間尺度分子動(dòng)力學(xué)模擬中證明簡(jiǎn)化模型的準(zhǔn)確性、效率和穩(wěn)定性。因此,這是在不犧牲集體非局部相互作用的情況下為具有數(shù)百個(gè)原子的系統(tǒng)構(gòu)建準(zhǔn)確、快速且易于訓(xùn)練的 MLFF 的關(guān)鍵步驟。
論文鏈接:https://www.nature.com/articles/s41467-023-39214-w
原創(chuàng)文章,作者:計(jì)算搬磚工程師,如若轉(zhuǎn)載,請(qǐng)注明來(lái)源華算科技,注明出處:http://www.zzhhcy.com/index.php/2024/01/22/55dec2b740/