末成年小嫩xb,嫰bbb槡bbbb槡bbbb,免费无人区码卡密,成全高清mv电影免费观看

化學(xué)語(yǔ)言模型 polyBERT,以前所未有的速度和準(zhǔn)確性在聚合物「宇宙」中搜索所需聚合物

化學(xué)語(yǔ)言模型 polyBERT,以前所未有的速度和準(zhǔn)確性在聚合物「宇宙」中搜索所需聚合物

聚合物是我們?nèi)粘I钪胁豢苫蛉钡囊徊糠郑瑤缀跤|及生活的方方面面。從塑料袋、水瓶,到橡膠和木材,再到DNA、RNA 等。

聚合物化學(xué)空間如此之大,為識(shí)別合適的特定應(yīng)用候選聚合物提供了前所未有的機(jī)遇和重大挑戰(zhàn)。

聚合物信息學(xué)這個(gè)新興領(lǐng)域可以深入了解聚合物「宇宙」,其中機(jī)器學(xué)習(xí)(ML)模型極具潛力。

近日,來(lái)自佐治亞理工學(xué)院(GT)的研究人員提出了一種化學(xué)語(yǔ)言模型:polyBERT——一個(gè)完整的端到端機(jī)器驅(qū)動(dòng)的聚合物信息學(xué)管道,可以以前所未有的速度和準(zhǔn)確性在這個(gè)空間中搜索合適的候選聚合物。

polyBERT 是一位化學(xué)語(yǔ)言學(xué)家,將聚合物的化學(xué)結(jié)構(gòu)視為一種化學(xué)語(yǔ)言。

該方法超越了目前基于手工指紋方案的聚合物性能預(yù)測(cè)的最佳概念,在保持準(zhǔn)確性的同時(shí),速度提高了兩個(gè)數(shù)量級(jí),從而使其成為部署在包括云基礎(chǔ)設(shè)施在內(nèi)的可擴(kuò)展架構(gòu)中的強(qiáng)有力候選者。

該研究以「polyBERT: a chemical language model to enable fully machine-driven ultrafast polymer informatics」為題,于 2023 年 7 月 11 日發(fā)布在《Nature Communications》上。

化學(xué)語(yǔ)言模型 polyBERT,以前所未有的速度和準(zhǔn)確性在聚合物「宇宙」中搜索所需聚合物

論文鏈接:https://www.nature.com/articles/s41467-023-39868-6

機(jī)器學(xué)習(xí)框架在聚合物特性預(yù)測(cè)器的開發(fā)和解決逆向問(wèn)題方面取得了實(shí)質(zhì)性進(jìn)展,在逆向問(wèn)題中,滿足特定特性要求的聚合物要么從候選集中識(shí)別,要么使用遺傳或生成算法重新設(shè)計(jì)。

聚合物信息學(xué)管道中的一個(gè)重要步驟是將聚合物化學(xué)結(jié)構(gòu)轉(zhuǎn)換為通常稱為指紋、特征或描述符的數(shù)字表示(見圖 1a 中的藍(lán)色框)。

化學(xué)語(yǔ)言模型 polyBERT,以前所未有的速度和準(zhǔn)確性在聚合物「宇宙」中搜索所需聚合物

圖 1:使用 polyBERT 進(jìn)行聚合物信息學(xué)。

過(guò)去的手工指紋識(shí)別方法利用化學(xué)信息學(xué)工具對(duì)聚合物的關(guān)鍵化學(xué)和結(jié)構(gòu)特征進(jìn)行數(shù)字編碼。盡管這種手工制作的指紋建立在寶貴的直覺(jué)和經(jīng)驗(yàn)的基礎(chǔ)上,但它們開發(fā)起來(lái)很乏味,涉及復(fù)雜的計(jì)算,通常會(huì)消耗模型訓(xùn)練和推理期間的大部分時(shí)間,并且缺乏對(duì)所有高分子化學(xué)類別的泛化。

因此,使用手工指紋的機(jī)器學(xué)習(xí)管道在探索新的聚合物化學(xué)類別時(shí)很容易出錯(cuò)。此外,手工制作的指紋為完全機(jī)器驅(qū)動(dòng)的管道的開發(fā)和部署帶來(lái)了障礙,這些管道適合云計(jì)算和高吞吐量環(huán)境中的可擴(kuò)展性。

克服前面提到的限制的一種方法是用完全機(jī)器制作的「Transformer」指紋代替手工制作的指紋(見圖 1a 的右側(cè)管道)。Transformer 已成為 ML 語(yǔ)言建模的黃金標(biāo)準(zhǔn)。

另一種有前途的神經(jīng)網(wǎng)絡(luò)架構(gòu),即圖神經(jīng)網(wǎng)絡(luò),它將化學(xué)結(jié)構(gòu)視為圖,已應(yīng)用于分子和聚合物化學(xué)空間。與 Transformer 相反,圖神經(jīng)網(wǎng)絡(luò)將原子表示為節(jié)點(diǎn),將鍵表示為圖的邊,從而對(duì)原子之間的直接和擴(kuò)展連接進(jìn)行編碼。因此,圖神經(jīng)網(wǎng)絡(luò)并不像 Transformer 那樣直接基于 PSMILES 字符串,而是依賴于需要為每個(gè)節(jié)點(diǎn)計(jì)算并分配給每個(gè)節(jié)點(diǎn)的一組初始特征向量(例如原子類型、隱式價(jià)等)。

在此,研究人員設(shè)想將簡(jiǎn)化分子線性輸入規(guī)范(SMILES)字符串作為聚合物的「化學(xué)語(yǔ)言」來(lái)表示聚合物。研究使用數(shù)百萬(wàn)個(gè)聚合物 SMILES (PSMILES) 字符串來(lái)訓(xùn)練名為 polyBERT 的語(yǔ)言模型,使其成為聚合物化學(xué)語(yǔ)言的專家(語(yǔ)言學(xué)家)。與多任務(wù)深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,polyBERT 實(shí)現(xiàn)了完全端到端機(jī)器驅(qū)動(dòng)的聚合物信息學(xué)管道,該管道使用并釋放了人工智能方法的真正力量。多任務(wù)深度神經(jīng)網(wǎng)絡(luò)利用多保真度和多屬性數(shù)據(jù)集中的固有相關(guān)性,在云計(jì)算環(huán)境中輕松擴(kuò)展,并推廣到多個(gè)預(yù)測(cè)任務(wù)。

該研究幾個(gè)關(guān)鍵要素如下:

  • 首先,通過(guò)枚舉組合從 13000 多種合成聚合物列表中提取的化學(xué)片段,生成了 1 億個(gè)假設(shè)聚合物的數(shù)據(jù)集。
  • 接下來(lái),使用這個(gè)假設(shè)的聚合物數(shù)據(jù)集來(lái)訓(xùn)練 PolyBERT(一種基于 DeBERTa 的僅編碼器 Transformer),使其成為一名高分子化學(xué)語(yǔ)言學(xué)家。在訓(xùn)練過(guò)程中,polyBERT 學(xué)習(xí)將輸入 PSMILES 字符串轉(zhuǎn)換為其用作聚合物指紋的數(shù)字表示。
  • 最后,使用其多任務(wù)機(jī)器學(xué)習(xí)框架將 PolyBERT 指紋映射到大約 36 種聚合物屬性,以產(chǎn)生完全機(jī)器驅(qū)動(dòng)的超快聚合物屬性預(yù)測(cè)器。為了進(jìn)行基準(zhǔn)測(cè)試,將這種新的端到端屬性預(yù)測(cè)管道的性能(準(zhǔn)確性和速度)與之前開創(chuàng)的基于手工制作的 Polymer Genome (PG) 指紋的管道進(jìn)行了比較。使用超快的 PolyBERT 聚合物信息學(xué)管道,能夠預(yù)測(cè) 1 億種假設(shè)聚合物的屬性,旨在找到聚合物宇宙的屬性邊界。

該研究通過(guò)利用語(yǔ)言、數(shù)據(jù)和人工智能模型的力量,有助于加快聚合物的發(fā)現(xiàn)、設(shè)計(jì)、開發(fā)和部署。

屬性預(yù)測(cè)

為了對(duì) PolyBERT 和 PG 指紋的屬性預(yù)測(cè)準(zhǔn)確性進(jìn)行基準(zhǔn)測(cè)試,研究人員為表 1 中定義的每個(gè)屬性類別訓(xùn)練多任務(wù)深度神經(jīng)網(wǎng)絡(luò)。

表 1:屬性預(yù)測(cè)器的訓(xùn)練數(shù)據(jù)集。(來(lái)源:論文)

化學(xué)語(yǔ)言模型 polyBERT,以前所未有的速度和準(zhǔn)確性在聚合物「宇宙」中搜索所需聚合物

化學(xué)語(yǔ)言模型 polyBERT,以前所未有的速度和準(zhǔn)確性在聚合物「宇宙」中搜索所需聚合物

圖 2a 顯示了 29 種聚合物特性交叉驗(yàn)證過(guò)程的五個(gè)驗(yàn)證數(shù)據(jù)集的決定系數(shù) (R^2) 平均值和標(biāo)準(zhǔn)差。研究發(fā)現(xiàn)共聚物的熱性能和機(jī)械性能(相對(duì)于均聚物)的預(yù)測(cè)精度更高,而透氣率的預(yù)測(cè)精度稍差,這與之前的發(fā)現(xiàn)類似。

圖 2b 顯示了每個(gè)元學(xué)習(xí)器(每個(gè)類別一個(gè))的高 R^2 值,表明所有屬性都具有出色的預(yù)測(cè)性能。

基于 PolyBERT 的超快且準(zhǔn)確的聚合物信息學(xué)管道使研究人員能夠預(yù)測(cè)最初為訓(xùn)練 polyBERT 而創(chuàng)建的 1 億個(gè)假設(shè)聚合物的所有 29 個(gè)屬性。圖 2c 顯示了每個(gè)屬性的最小值、平均值和最大值。

化學(xué)語(yǔ)言模型 polyBERT,以前所未有的速度和準(zhǔn)確性在聚合物「宇宙」中搜索所需聚合物

圖 2:polyBERT (PB) 和聚合物基因組 (PG) 指紋的決定系數(shù) (R^2) 性能值。(來(lái)源:論文)

總體而言,PG 表現(xiàn)最好 (R^2?=?0.81),但緊隨其后的是 polyBERT (R^2?=?0.80)。指紋類型的整體性能順序與類別平均值和屬性一致,但 Xc、?Xe 和 ?b 除外,其中 polyBERT 略優(yōu)于 PG 指紋。注意到,polyBERT 和 PG 指紋都是聚合物特征化的實(shí)用途徑,因?yàn)樗鼈兊?R^2 值非常接近并且通常很高。polyBERT 指紋具有手工制作的 PG 指紋的準(zhǔn)確性,但速度快了兩個(gè)數(shù)量級(jí)以上。

化學(xué)語(yǔ)言模型 polyBERT,以前所未有的速度和準(zhǔn)確性在聚合物「宇宙」中搜索所需聚合物

圖 3:聚合物指紋的計(jì)算時(shí)間。(來(lái)源:論文)

PolyBERT 的其它三個(gè)優(yōu)勢(shì)

前饋網(wǎng)絡(luò)在 PolyBERT 自監(jiān)督訓(xùn)練期間預(yù)測(cè)屏蔽標(biāo)記,能夠?qū)?shù)字潛在空間(即指紋)映射到 PSMILES 字符串。

polyBERT 方法的第二個(gè)優(yōu)點(diǎn)是可解釋性。更詳細(xì)地分析 PolyBERT 指紋的化學(xué)相關(guān)性可以揭示聚合物結(jié)構(gòu)部分的化學(xué)功能和相互作用。

PolyBERT 方法的另一個(gè)優(yōu)點(diǎn)是它覆蓋整個(gè)化學(xué)空間。分子 SMILES 字符串是聚合物 SMILES 字符串的子集,僅區(qū)別兩個(gè)星 ([*]) 符號(hào),表示聚合物重復(fù)單元的兩個(gè)端點(diǎn)。polyBERT 沒(méi)有內(nèi)在的限制或功能來(lái)阻礙預(yù)測(cè)分子 SMILES 字符串的指紋。

總之,polyBERT 是一種可通用、超快且準(zhǔn)確的聚合物信息學(xué)管道,可在云硬件上無(wú)縫擴(kuò)展,適用于巨大聚合物空間的高通量篩選。polyBERT 能夠大規(guī)模探索這個(gè)巨大的聚合物宇宙。PolyBERT 為新型聚合物的發(fā)現(xiàn)鋪平了道路。

原創(chuàng)文章,作者:計(jì)算搬磚工程師,如若轉(zhuǎn)載,請(qǐng)注明來(lái)源華算科技,注明出處:http://www.zzhhcy.com/index.php/2024/02/20/231f2dd6bc/

(0)

相關(guān)推薦

主站蜘蛛池模板: 饶河县| 会理县| 呼和浩特市| 涿州市| 巍山| 汉川市| 连平县| 宝山区| 高雄市| 虎林市| 金华市| 马山县| 贵溪市| 驻马店市| 定西市| 响水县| 阜南县| 遂溪县| 腾冲县| 马龙县| 金昌市| 平凉市| 临安市| 大丰市| 平和县| 清流县| 且末县| 阿坝| 固原市| 阜康市| 衡阳县| 奉新县| 枣庄市| 莱阳市| 焉耆| 白城市| 武邑县| 轮台县| 中牟县| 佳木斯市| 仙游县|