末成年小嫩xb,嫰bbb槡bbbb槡bbbb,免费无人区码卡密,成全高清mv电影免费观看

解開化學(xué)語言模型中的「黑匣子」,Transformer可快速學(xué)習(xí)分子的部分結(jié)構(gòu),但手性學(xué)習(xí)困難


ScienceAI 設(shè)為星標(biāo)

第一時間掌握

新鮮的 AI for Science 資訊



解開化學(xué)語言模型中的「黑匣子」,Transformer可快速學(xué)習(xí)分子的部分結(jié)構(gòu),但手性學(xué)習(xí)困難

編輯 | X

年來,自然語言處理(NLP)模型,特別是 Transformer 模型,已應(yīng)用于像 SMILES 這樣的分子結(jié)構(gòu)的文字表示。然而,關(guān)于這些模型如何理解化學(xué)結(jié)構(gòu)的研究很少。

為了解決這個黑匣子,東京大學(xué)的研究人員使用代表性的 NLP 模型 Transformer 研究了 SMILES 的學(xué)習(xí)進度與化學(xué)結(jié)構(gòu)之間的關(guān)系。研究表明,雖然 Transformer 可以快速學(xué)習(xí)分子的部分結(jié)構(gòu),但它需要擴展訓(xùn)練才能理解整體結(jié)構(gòu)。
一致的是,從訓(xùn)練開始到結(jié)束,使用不同學(xué)習(xí)步驟的模型生成的描述符進行分子特性預(yù)測的準(zhǔn)確性是相似的。此外,發(fā)現(xiàn) Transformer 需要特別長時間的訓(xùn)練來學(xué)習(xí)手性,并且有時會因?qū)τ丑w的誤解而停滯不前,性能低下。這些發(fā)現(xiàn)有望加深對化學(xué)領(lǐng)域 NLP 模型的理解。
該研究以「Difficulty in chirality recognition for Transformer architectures learning chemical structures from string representations」為題,于 2024 年 2 月 16 日發(fā)布在《Nature Communications》上。
解開化學(xué)語言模型中的「黑匣子」,Transformer可快速學(xué)習(xí)分子的部分結(jié)構(gòu),但手性學(xué)習(xí)困難
論文鏈接:https://www.nature.com/articles/s41467-024-45102-8
機器學(xué)習(xí)的最新進展影響了化學(xué)領(lǐng)域的各種研究,例如分子性質(zhì)預(yù)測、能量計算和結(jié)構(gòu)生成。
要在化學(xué)中利用機器學(xué)習(xí)方法,我們首先需要讓計算機識別化學(xué)結(jié)構(gòu)。最流行的方法之一是使用化學(xué)語言模型,這是一種自然語言處理 (NLP) 模型,其中包含表示化學(xué)結(jié)構(gòu)的字符串,例如 SMILES。
很少有人研究化學(xué)語言模型如何理解極其多樣化的分子結(jié)構(gòu),以及如何將化學(xué)結(jié)構(gòu)和描述符聯(lián)系起來。
在此,東京大學(xué)的研究人員通過比較模型及其描述符在訓(xùn)練的各個步驟中的性能來解決這個黑匣子,這闡明了哪些類型的分子特征可以輕松地納入描述符中,哪些類型則不能。特別是,專注于最流行的 NLP 模型 Transformer,這是當(dāng)今用于描述符生成和其他化學(xué)語言任務(wù)的良好利用的架構(gòu)。
具體來說,研究人員訓(xùn)練一個 Transformer 模型來翻譯 SMILES 字符串,然后比較不同訓(xùn)練步驟中預(yù)測與目標(biāo)之間分子指紋的完美一致性和相似性。還利用模型在訓(xùn)練的不同步驟生成的描述符進行了 6 個分子性質(zhì)預(yù)測任務(wù),并研究了哪些類型的任務(wù)容易解決。
研究進一步發(fā)現(xiàn),Transformer 的翻譯準(zhǔn)確率有時會在較低水平上停滯一段時間,然后突然飆升。為了弄清楚其原因,研究人員比較了 SMILES 每個字符的翻譯準(zhǔn)確性。最后,尋找并找到了防止停滯和穩(wěn)定學(xué)習(xí)的方法。
主要研究結(jié)果如下:
1、為了了解 Transformer 模型如何學(xué)習(xí)不同的化學(xué)結(jié)構(gòu),研究人員首先通過比較不同訓(xùn)練步驟的模型來研究學(xué)習(xí)過程與模型性能之間的關(guān)系。在 Transformer 模型中,在訓(xùn)練的早期階段就可以識別分子的部分結(jié)構(gòu),而識別整體結(jié)構(gòu)則需要更多的訓(xùn)練。結(jié)合之前關(guān)于 RNN 模型的研究,這一發(fā)現(xiàn)可以推廣到使用 SMILES 字符串的各種 NLP 模型。因此,使 Transformer 模型能夠?qū)⒄w結(jié)構(gòu)信息作為其結(jié)構(gòu)中的輔助任務(wù)來引用,將有助于改進描述符生成模型。
解開化學(xué)語言模型中的「黑匣子」,Transformer可快速學(xué)習(xí)分子的部分結(jié)構(gòu),但手性學(xué)習(xí)困難

圖 1:學(xué)習(xí)過程中 Transformer 的部分/整體結(jié)構(gòu)識別。(來源:論文)

2、對于分子性質(zhì)預(yù)測,Transformer 模型生成的描述符的性能在訓(xùn)練之前可能已經(jīng)飽和,并且在后續(xù)的訓(xùn)練中沒有得到改善。這表明初始模型的描述符已經(jīng)包含了足夠的下游任務(wù)信息,這可能是分子的部分結(jié)構(gòu)。另一方面,也有可能下游任務(wù),如分子的性質(zhì)預(yù)測,對于 Transformer 來說太容易了,不適合評估基于 Transformer 的描述符生成方法。
解開化學(xué)語言模型中的「黑匣子」,Transformer可快速學(xué)習(xí)分子的部分結(jié)構(gòu),但手性學(xué)習(xí)困難

圖 2:描述符在分子性質(zhì)預(yù)測中的性能。(來源:論文)

3、與其他因素(例如整體結(jié)構(gòu)或其他部分結(jié)構(gòu))相比,Transformer 在手性方面的翻譯性能提升相對較慢,并且模型有時會長時間對手性產(chǎn)生混淆,導(dǎo)致整體結(jié)構(gòu)識別持續(xù)停滯。這表明,向模型「教授」手性的額外結(jié)構(gòu)或任務(wù)可以改善模型及其描述符的性能。
解開化學(xué)語言模型中的「黑匣子」,Transformer可快速學(xué)習(xí)分子的部分結(jié)構(gòu),但手性學(xué)習(xí)困難

圖 3:不同初始權(quán)重下完美精度的停滯。(來源:論文)

解開化學(xué)語言模型中的「黑匣子」,Transformer可快速學(xué)習(xí)分子的部分結(jié)構(gòu),但手性學(xué)習(xí)困難

圖 4:Transformer 的手性學(xué)習(xí)困難。(來源:論文)

4、引入pre-LN 結(jié)構(gòu)可以加速并穩(wěn)定學(xué)習(xí),包括手性。
解開化學(xué)語言模型中的「黑匣子」,Transformer可快速學(xué)習(xí)分子的部分結(jié)構(gòu),但手性學(xué)習(xí)困難

圖 5:通過引入 pre-LN 改善停滯和手性識別。(來源:論文)

最后,為了闡明關(guān)于 Transformer 的研究結(jié)果的普遍性,研究人員使用另一種分子表達來訓(xùn)練模型。使用 InChI 代替 SMILES,這是一些化學(xué)語言模型化學(xué)信息學(xué)研究中采用的分子的替代文字表示。
解開化學(xué)語言模型中的「黑匣子」,Transformer可快速學(xué)習(xí)分子的部分結(jié)構(gòu),但手性學(xué)習(xí)困難

圖 6:通過 InChI-to-SMILES 翻譯訓(xùn)練的 Transformer 模型的實驗。(來源:論文)

結(jié)果顯示,與完全精度和損失函數(shù)相比,部分精度和指紋相似度早期飽和,表明在 InChI 到 SMILES 翻譯中,部分結(jié)構(gòu)的識別比整體結(jié)構(gòu)更容易。下游任務(wù)的性能并沒有通過訓(xùn)練得到改善。
結(jié)果還表明,InChI 到 SMILES 的翻譯確實出現(xiàn)了停滯,區(qū)分對映體的混亂導(dǎo)致了停滯。此外,pre-LN 的引入緩解了停滯現(xiàn)象。
這些發(fā)現(xiàn)有助于澄清化學(xué)語言模型中的黑箱,并有望激活這一領(lǐng)域。研究這些發(fā)現(xiàn)是否適用于具有監(jiān)督性質(zhì)的其他應(yīng)用(例如結(jié)構(gòu)生成和端到端屬性預(yù)測)的化學(xué)語言模型是一項有趣的未來任務(wù)。
由于 NLP 是深度學(xué)習(xí)中最先進的領(lǐng)域之一,化學(xué)語言模型將得到越來越多的發(fā)展。另一方面,與化學(xué)領(lǐng)域流行的神經(jīng)網(wǎng)絡(luò)模型(如圖神經(jīng)網(wǎng)絡(luò))相比,語言模型與化學(xué)結(jié)構(gòu)之間的關(guān)系存在許多未知因素。
對 NLP 模型與化學(xué)結(jié)構(gòu)之間關(guān)系的進一步基礎(chǔ)研究,有望進一步澄清 NLP 模型如何進化和識別化學(xué)結(jié)構(gòu)的黑盒子,從而促進化學(xué)中各種任務(wù)的化學(xué)語言模型的發(fā)展和性能的提高。

人工智能 × [ 生物 神經(jīng)科學(xué) 數(shù)學(xué) 物理 化學(xué) 材料 ]

「ScienceAI」關(guān)注人工智能與其他前沿技術(shù)及基礎(chǔ)科學(xué)的交叉研究與融合發(fā)展。

歡迎關(guān)注標(biāo)星,并點擊右下角點贊在看

點擊讀原文,加入專業(yè)從業(yè)者社區(qū),以獲得更多交流合作機會及服務(wù)。

原創(chuàng)文章,作者:計算搬磚工程師,如若轉(zhuǎn)載,請注明來源華算科技,注明出處:http://www.zzhhcy.com/index.php/2024/02/26/efb62573a3/

(0)

相關(guān)推薦

主站蜘蛛池模板: 和静县| 富宁县| 临武县| 德江县| 黄大仙区| 新民市| 双柏县| 汉沽区| 长春市| 如东县| 晴隆县| 都匀市| 余庆县| 通山县| 沅江市| 林州市| 渑池县| 上栗县| 柳林县| 伊金霍洛旗| 历史| 镇雄县| 色达县| 全州县| 开江县| 安化县| 库伦旗| 县级市| 双桥区| 吉林市| 凤冈县| 冷水江市| 景德镇市| 勃利县| 宁强县| 正阳县| 富裕县| 辉南县| 石泉县| 淳安县| 乌兰县|