末成年小嫩xb,嫰bbb槡bbbb槡bbbb,免费无人区码卡密,成全高清mv电影免费观看

【機(jī)器學(xué)習(xí)】npj. Comput. Mater.:加速材料設(shè)計(jì)的生成式平臺——GT4SD,推動科學(xué)發(fā)現(xiàn)!

【機(jī)器學(xué)習(xí)】npj. Comput. Mater.:加速材料設(shè)計(jì)的生成式平臺——GT4SD,推動科學(xué)發(fā)現(xiàn)!
【機(jī)器學(xué)習(xí)】npj. Comput. Mater.:加速材料設(shè)計(jì)的生成式平臺——GT4SD,推動科學(xué)發(fā)現(xiàn)!
【做計(jì)算 找華算】理論計(jì)算助攻頂刊,10000+成功案例,全職海歸技術(shù)團(tuán)隊(duì)、正版商業(yè)軟件版權(quán)!
經(jīng)費(fèi)預(yù)存選華算,高至15%預(yù)存增值!
【機(jī)器學(xué)習(xí)】npj. Comput. Mater.:加速材料設(shè)計(jì)的生成式平臺——GT4SD,推動科學(xué)發(fā)現(xiàn)!
隨著各個(gè)科學(xué)領(lǐng)域數(shù)據(jù)的可用性不斷增加,生成模型在加速科學(xué)發(fā)現(xiàn)方面具有巨大的潛力。生成模型利用從數(shù)據(jù)集中學(xué)習(xí)到的有效表示來加速新假設(shè)的制定,這些假設(shè)有可能對材料的發(fā)現(xiàn)產(chǎn)生廣泛的影響。在這篇Brief Communication中,IBM歐洲研究院Matteo Manica等人介紹了他們最近提出的用于科學(xué)發(fā)現(xiàn)的生成式工具包(GT4SD)。這個(gè)可擴(kuò)展的開源庫使科學(xué)家、開發(fā)人員和研究人員能夠訓(xùn)練和使用最先進(jìn)的生成模型,以加速材料設(shè)計(jì),推動科學(xué)發(fā)現(xiàn)。
研究背景
科學(xué)方法在很大程度上推動了上個(gè)世紀(jì)技術(shù)的迅速進(jìn)步。然而,在一些重要領(lǐng)域,如材料或藥物的發(fā)現(xiàn),生產(chǎn)率一直在急劇下降。如今,發(fā)現(xiàn)新材料可能需要近十年的時(shí)間,成本高達(dá)1000萬至1億美元。天然產(chǎn)物及其衍生物的儲存庫已經(jīng)在很大程度上被消耗完,自下而上的假設(shè)已經(jīng)表明,在巨大的搜索空間中識別和選擇新的和有用的候選物是極具挑戰(zhàn)性的,例如,藥物類分子的化學(xué)空間估計(jì)可包含>1033個(gè)結(jié)構(gòu)。為了克服這個(gè)問題,近年來,基于機(jī)器學(xué)習(xí)的生成模型,如變分自編碼器(VAE),生成對抗網(wǎng)絡(luò)(GAN)已經(jīng)成為一種實(shí)用的方法,可以利用分子結(jié)構(gòu)的不同表示(例如基于文本的SMILES和SELFIES,或基于圖形的表示)來設(shè)計(jì)和發(fā)現(xiàn)具有所需屬性的分子。與枚舉搜索或網(wǎng)格搜索相比,生成模型可以更有效地探索從標(biāo)準(zhǔn)定義的數(shù)據(jù)中學(xué)習(xí)到的巨大搜索空間,已經(jīng)在糖和染料分子的設(shè)計(jì),特定靶標(biāo)的配體,抗癌靶向分子,抗菌肽和半導(dǎo)體材料中得到了應(yīng)用。
與此同時(shí),越來越多的研究者正在努力開發(fā)軟件包來評估機(jī)器學(xué)習(xí)模型及其在材料科學(xué)中的應(yīng)用。在性能預(yù)測方面,發(fā)布了用于材料性能預(yù)測的模型、數(shù)據(jù)挖掘工具包和基準(zhǔn)測試軟件包,如CGCNN、pymatgen、Matminer、Matbench/AutoMatminer等。在生成模型方面,GuacaMol和Moses等通用框架為特定領(lǐng)域的生成模型軟件鋪平了道路,這些軟件在藥物發(fā)現(xiàn)領(lǐng)域也越來越受歡迎。
最近,研究者也提出了很多新的方法。生成流網(wǎng)絡(luò)(GFN)是一種利用強(qiáng)化學(xué)習(xí)的思想來提高樣本多樣性的生成模型,它為圖的結(jié)構(gòu)化數(shù)據(jù)提供了一種非迭代的采樣機(jī)制。GFN特別適合于分子生成領(lǐng)域中樣本多樣性難以保證的問題。擴(kuò)散模型(DM)是學(xué)習(xí)復(fù)雜的高維分布的生成模型,在多個(gè)維度上對數(shù)據(jù)去噪。DM在無條件和有條件的視覺任務(wù)中解決樣本質(zhì)量和多樣性方面取得了令人印象深刻的結(jié)果。條件生成模型已經(jīng)在分子構(gòu)象表示以及蛋白質(zhì)生成與對接等領(lǐng)域得到應(yīng)用。
在這種情況下,由于軟件庫和工具包可以降低使用生成模型的難度,人們對軟件庫和工具包的需求也日益增長。考慮到不斷增長的模型規(guī)模以及訓(xùn)練模型對大量計(jì)算資源的巨大需求,這種低成本、簡易的軟件包開發(fā)需求正變得更加迫切。而且,這種趨勢在資金充足的機(jī)構(gòu)中的一小群享有特權(quán)的研究人員和科學(xué)界的其他成員之間造成了不平衡,從而違背了開放、合作和公平的科學(xué)原則。
圖文導(dǎo)讀
為此,作者開發(fā)了用于科學(xué)發(fā)現(xiàn)的生成式工具包(GT4SD)。這個(gè)Python庫旨在通過開發(fā)一個(gè)框架來簡化生成模型的訓(xùn)練、執(zhí)行和開發(fā),從而加速科學(xué)發(fā)現(xiàn)。如圖1所示,GT4SD為所有生成模型提供了一個(gè)統(tǒng)一的應(yīng)用程序注冊表,并為每一個(gè)屬性提供了一個(gè)單獨(dú)的注冊表。這不需要用戶熟悉開發(fā)代碼,從而大大降低了使用門檻。此外,模型之間的高度標(biāo)準(zhǔn)化簡化了對新模型的集成,促進(jìn)了容器化或分布式計(jì)算系統(tǒng)的使用。GT4SD為訪問最先進(jìn)的生成模型提供了最大的框架,它可以用來執(zhí)行、訓(xùn)練、微調(diào)和部署生成模型,所有這些都可以直接通過Python或通過高度靈活的命令行界面(CLI)來完成。所有預(yù)先訓(xùn)練的模型都可以通過托管在Hugging Face Spaces上的web應(yīng)用程序,直接在瀏覽器執(zhí)行。對于高級用戶,GT4SD模型中心對在新數(shù)據(jù)集上訓(xùn)練現(xiàn)有算法的發(fā)布過程進(jìn)行了簡化,以便在工作流程中進(jìn)行即時(shí)和持續(xù)的集成。
GT4SD提供了一組生成假設(shè)(推理管道)和微調(diào)特定領(lǐng)域的生成模型(訓(xùn)練管道)的功能,與現(xiàn)有的流行庫兼容和互操作,包括PyTorch, PyTorch Lightning,Hugging Face Transformers,Diffusers,GuacaMol,Moses,TorchDrug,GFlowNets和MoLeR,也包括廣泛的預(yù)訓(xùn)練模型和材料設(shè)計(jì)的應(yīng)用程序。GT4SD提供了簡單的接口,使得生成模型只需要使用幾行代碼就可以輕易部署。該工具為有興趣在科學(xué)研究中應(yīng)用最先進(jìn)模型的研究人員和學(xué)生提供了一個(gè)環(huán)境,使他們能夠使用各種各樣的預(yù)訓(xùn)練模型進(jìn)行實(shí)驗(yàn),涵蓋廣泛的材料科學(xué)和藥物發(fā)現(xiàn)應(yīng)用。此外,GT4SD提供了一個(gè)標(biāo)準(zhǔn)化的CLI,用于推理和訓(xùn)練的APIs不會影響對算法細(xì)粒度參數(shù)的確定和>15種基于預(yù)訓(xùn)練模型的web應(yīng)用程序的能力。
【機(jī)器學(xué)習(xí)】npj. Comput. Mater.:加速材料設(shè)計(jì)的生成式平臺——GT4SD,推動科學(xué)發(fā)現(xiàn)!
圖1. GT4SD結(jié)構(gòu),實(shí)現(xiàn)了生成模型的推理和訓(xùn)練管道,GT4SD還提供了用于算法版本控制和共享的實(shí)用程序,以便在社區(qū)中更廣泛地使用。
可以說,加速科學(xué)發(fā)現(xiàn)的最大潛力在于從頭分子設(shè)計(jì)領(lǐng)域,特別是在材料和藥物發(fā)現(xiàn)方面。隨著幾項(xiàng)(預(yù))臨床試驗(yàn)的進(jìn)行,第一種人工智能生成的藥物獲得FDA的批準(zhǔn)并進(jìn)入市場只是時(shí)間問題。在一項(xiàng)開創(chuàng)性的研究中,深度強(qiáng)化學(xué)習(xí)模型(GENTRL)被用于發(fā)現(xiàn)有效的DDR1抑制劑,這是一種與纖維化、癌癥和其他疾病有關(guān)的重要蛋白激酶靶點(diǎn)。總共合成了6個(gè)分子,其中4個(gè)分子在生化試驗(yàn)中被發(fā)現(xiàn)有活性,1個(gè)在小鼠體內(nèi)表現(xiàn)出良好的藥代動力學(xué)(gentrl-ddr1)。作為應(yīng)用于分子發(fā)現(xiàn)的典型案例,作者依據(jù)gentrl-ddr1生成一個(gè)相似的分子,提升其估計(jì)的水溶性(ESOL)。低的水溶性影響了>40%的新化學(xué)實(shí)體,因此對藥物遞送構(gòu)成了主要障礙,提高溶解度需要探索gentrl-ddr1周圍的局部化學(xué)空間,以找到優(yōu)化的先導(dǎo)化合物。
【機(jī)器學(xué)習(xí)】npj. Comput. Mater.:加速材料設(shè)計(jì)的生成式平臺——GT4SD,推動科學(xué)發(fā)現(xiàn)!
圖2. 使用GT4SD進(jìn)行分子發(fā)現(xiàn)的案例研究,從使用生成模型設(shè)計(jì)的化合物開始(gentrl-ddr1),作者展示了如何使用GT4SD快速設(shè)計(jì)具有所需屬性的分子,使用庫中可用的一系列算法(兩種設(shè)置:無條件和條件)。條件模型可以受到化學(xué)支架的約束,或者以期望的屬性值為條件。
圖2中顯示了如何使用GT4SD處理此任務(wù)的流程。在第一步中,可以通過GT4SD的界面訪問一組豐富的預(yù)訓(xùn)練分子生成模型。有兩個(gè)主要的模型類可用。第一類由圖生成模型表示,如MoLeR或TorchDrug庫中的模型,特別是圖卷積策略網(wǎng)絡(luò)和基于流的自回歸模型(GraphAF)。第二個(gè)模型類是化學(xué)語言模型(CLM),它將分子視為文本(SMILES或SELFIES序列)。GT4SD中的大多數(shù)化學(xué)語言模型都是通過MOSES或GuacaMol庫訪問的;特別是VAE,對抗自編碼器(AAE)或目標(biāo)增強(qiáng)GAN模型(ORGAN)。第一步,作者從每個(gè)模型所學(xué)習(xí)到的化學(xué)空間中隨機(jī)抽取分子。對生成的分子與gentrl-ddr1的Tanimoto相似性進(jìn)行評估表明這種方法雖然產(chǎn)生了許多具有滿意ESOL的分子,但并沒有充分反映與種子分子的相似性約束(圖2,左下)。這是可以預(yù)料到的,因?yàn)樗褂玫纳赡P褪菬o條件的。
作為一種更精細(xì)的方法,GT4SD包括基于條件的分子生成模型,可以用自然文本查詢(Text+Chem T5)、連續(xù)屬性約束或分子子結(jié)構(gòu)(scaffolds)(如MoLeR、REINVENT),甚至是屬性約束和分子子結(jié)構(gòu)的組合(Regression Transformer)來執(zhí)行。從這些模型中獲得的分子,特別是MoLeR和RT,在很大程度上遵守了相似性約束,并產(chǎn)生了許多與gentrl-ddr1相似度> 0.5的分子。MoLeR和RT將ESOL提高了1M/L以上(圖2右)。在一個(gè)現(xiàn)實(shí)的應(yīng)用場景中,藥物化學(xué)家可以手動審查用所描述的配方生成的分子,并有選擇地考慮合成和篩選。
總結(jié)與展望
作者所開發(fā)的GT4SD是邁向加速材料發(fā)現(xiàn)的生成建模環(huán)境的第一步。未來,作者下一步將擴(kuò)展GT4SD的應(yīng)用領(lǐng)域(例如無機(jī)材料、可持續(xù)性、地理信息學(xué)等)。未來的發(fā)展將集中在兩個(gè)主要組成部分:擴(kuò)展模型評估和樣本屬性預(yù)測;開發(fā)一個(gè)共享模型的生態(tài)系統(tǒng),該模型建立在通過現(xiàn)有CLI命令公開的功能之上,用于模型生命周期管理。作者將擴(kuò)展目前來自GuacaMol和Moses的集成指標(biāo),并探索偏差度量,以便根據(jù)生成的示例及其屬性更好地分析性能。在共享生態(tài)系統(tǒng)方面,作者相信GT4SD將進(jìn)一步受益于直觀的應(yīng)用程序中心,它可以促進(jìn)預(yù)訓(xùn)練生成模型的分發(fā),并使用戶能夠輕松地根據(jù)特定應(yīng)用程序的自定義數(shù)據(jù)微調(diào)模型。
文獻(xiàn)信息
Matteo Manica, Jannis Born, Joris Cadow, Dimitrios Christofidellis, Ashish Dave, Dean Clarke, Yves Gaetan Nana Teukam, Giorgio Giannone, Samuel C. Hoffman, Matthew Buchan, Vijil Chenthamarakshan, Timothy Donovan, Hsiang Han Hsu, Federico Zipoli, Oliver Schilter, Akihiro Kishimoto, Lisa Hamada, Inkit Padhi, Karl Wehden, Lauren McHugh, Alexy Khrabrov, Payel Das, Seiji Takeda and John R. Smith. Accelerating material design with the generative toolkit for scientific discovery. npj Computational Materials 9, 69 (2023)
https://doi.org/10.1038/s41524-023-01028-1
【機(jī)器學(xué)習(xí)】npj. Comput. Mater.:加速材料設(shè)計(jì)的生成式平臺——GT4SD,推動科學(xué)發(fā)現(xiàn)!
【機(jī)器學(xué)習(xí)】npj. Comput. Mater.:加速材料設(shè)計(jì)的生成式平臺——GT4SD,推動科學(xué)發(fā)現(xiàn)!

 點(diǎn)擊閱讀原文,報(bào)名計(jì)算培訓(xùn)!

原創(chuàng)文章,作者:v-suan,如若轉(zhuǎn)載,請注明來源華算科技,注明出處:http://www.zzhhcy.com/index.php/2023/10/25/4f907f4e1b/

(0)

相關(guān)推薦

主站蜘蛛池模板: 巴马| 南丹县| 荔浦县| 丽江市| 河南省| 永丰县| 伊川县| 思南县| 泗洪县| 定远县| 古丈县| 英吉沙县| 惠水县| 麻栗坡县| 普兰店市| 井陉县| 井冈山市| 德江县| 宜兰市| 河津市| 金山区| 洛隆县| 壶关县| 页游| 库伦旗| 营口市| 辽中县| 扎兰屯市| 伊宁市| 玛纳斯县| 清镇市| 宜州市| 平潭县| 珲春市| 永泰县| 潞城市| 米脂县| 错那县| 上杭县| 河曲县| 洛浦县|