末成年小嫩xb,嫰bbb槡bbbb槡bbbb,免费无人区码卡密,成全高清mv电影免费观看

大型語言模型作為萬能鑰匙:用GPT解鎖材料科學(xué)的秘密

?? 作者 | 澳大利亞新南威爾士大學(xué) Bram Hoex AI for Science 研究組

編輯 | 蘿卜皮

大型語言模型作為萬能鑰匙:用GPT解鎖材料科學(xué)的秘密

近期,大型語言模型(LLM)在自然語言處理(NLP)領(lǐng)域取得了驚人的進(jìn)步,其中 GPT-3 引領(lǐng)了這一潮流。這些模型具備強(qiáng)大的學(xué)習(xí)和生成能力,使得它們能夠理解和生成自然語言文本。盡管 GPT-3 在新聞生成、翻譯和問答等任務(wù)上的表現(xiàn)已被廣泛研究,但其在科學(xué)領(lǐng)域的潛力尚未被充分挖掘。

最近,來自澳大利亞新南威爾士大學(xué)的 Bram Hoex AI4Science 研究組提出了一種全新的 NLP 任務(wù),即結(jié)構(gòu)化信息推斷(SII),成功利用 GPT-3 從科學(xué)文獻(xiàn)中獲取有價值的科學(xué)知識。該任務(wù)的成本極低,不需要提供專業(yè)性的標(biāo)注,僅僅依靠綜述論文。過去需要數(shù)十位頂尖科學(xué)家才能完成的科學(xué)信息總結(jié),現(xiàn)在通過 GPT-SII 的組合在幾秒鐘內(nèi)即可完成。

通過 GPT-SII 的組合,該團(tuán)隊(duì)成功更新了兩年未更新的鈣鈦礦太陽能電池FAIR數(shù)據(jù)庫,并利用 GPT 生成的數(shù)據(jù)庫,再次對 LLM 進(jìn)行 fine-tuned,實(shí)現(xiàn)了對鈣鈦礦太陽能電池和有機(jī)太陽能電池組件的電學(xué)性能進(jìn)行精準(zhǔn)預(yù)測。

大型語言模型作為萬能鑰匙:用GPT解鎖材料科學(xué)的秘密

引言

最近,大型語言模型(LLM)在自然語言處理(NLP)領(lǐng)域取得了驚人的進(jìn)步,其中?GPT-3?作為其中一員,引領(lǐng)了這一潮流。這些模型具有強(qiáng)大的學(xué)習(xí)和生成能力,使它們能夠理解和生成自然語言文本。盡管?GPT-3?在諸如新聞生成、翻譯和問答等任務(wù)上的表現(xiàn)已經(jīng)被廣泛研究,但其在科學(xué)領(lǐng)域的潛力尚未得到充分挖掘。本文將重點(diǎn)介紹?GPT-3?在材料科學(xué)領(lǐng)域的應(yīng)用,以及如何利用這種強(qiáng)大的?AI?工具來推動科學(xué)研究的發(fā)展。

大型語言模型(LLM)簡介

大型語言模型(LLM)是一種基于深度學(xué)習(xí)的自然語言處理(NLP)模型,如?GPT-3BERT?和?T5?等。這些模型通過從大量文本數(shù)據(jù)中學(xué)習(xí)語言規(guī)律,從而實(shí)現(xiàn)對自然語言的理解和生成。在訓(xùn)練過程中,模型會學(xué)習(xí)到詞匯、語法、語義和語境等各種信息,來處理各種復(fù)雜的?NLP?任務(wù)。

GPT-3(第三代生成預(yù)訓(xùn)練式轉(zhuǎn)換器)是目前最先進(jìn)的?LLM?之一。該模型由?OpenAI?開發(fā),具有?1750?億個參數(shù),是迄今為止最大的語言模型。GPT-3?已經(jīng)在多個?NLP?任務(wù)中取得了顯著的成果,如機(jī)器翻譯、問答、文本摘要和代碼生成等。然而,盡管?GPT-3?在這些領(lǐng)域取得了巨大成功,但其在科學(xué)領(lǐng)域的應(yīng)用還處于起步階段。

大語言模型應(yīng)對科學(xué)文本時的困難

在科學(xué)領(lǐng)域,之前廣泛使用的 BERT 的模型遇到了一些挑戰(zhàn)。首先,微調(diào) BERT 模型的過程需要在原始文本中進(jìn)行詳細(xì)的標(biāo)注,這種標(biāo)注過程要求材料科學(xué)家具備一定的自然語言處理(NLP)經(jīng)驗(yàn)和技能。這不僅使人工標(biāo)注的成本和難度顯著增加,還可能導(dǎo)致標(biāo)注不一致和信息損失。其次,現(xiàn)有研究顯示,通用領(lǐng)域的BERT在科學(xué)研究中的表現(xiàn)尚不理想,特別是在處理領(lǐng)域特定術(shù)語和復(fù)雜關(guān)系時。這意味著為了在不同的細(xì)分領(lǐng)域取得理想的性能,需要為每個領(lǐng)域單獨(dú)重新訓(xùn)練和調(diào)整BERT模型。這對計(jì)算資源和訓(xùn)練數(shù)據(jù)的需求提出了巨大的挑戰(zhàn),尤其是在處理材料科學(xué)這樣一個高度專業(yè)化和跨學(xué)科的領(lǐng)域時。

大型語言模型作為萬能鑰匙:用GPT解鎖材料科學(xué)的秘密

圖:微軟在2023.1 月發(fā)布的BioGPT 在PubMedQA 表現(xiàn)遠(yuǎn)超之前BERT架構(gòu)的模型

GPT-3在材料科學(xué)領(lǐng)域的應(yīng)用
為解決這些問題,研究人員根據(jù) GPT-3 的 encoder-decoder ?架構(gòu),提出了一種名為結(jié)構(gòu)化信息推斷(Structured Information Inference,簡稱SII)的新任務(wù)。SII 任務(wù)旨在從非結(jié)構(gòu)化的科學(xué)文本中提取分層的、特定領(lǐng)域的材料和器件信息,如成分、結(jié)構(gòu)、制備條件等。與傳統(tǒng)的信息提取方法相比,SII 具有更強(qiáng)的領(lǐng)域適應(yīng)性和靈活性,能夠應(yīng)對科學(xué)文本中各種各樣的復(fù)雜情況。

大型語言模型作為萬能鑰匙:用GPT解鎖材料科學(xué)的秘密

圖:GPT-3在SII任務(wù)的工作流程,一段文本輸入后,Encoder 負(fù)責(zé)將文本編碼為向量并通過注意力機(jī)制等理解文本,Decoder 負(fù)責(zé)將向量表示反轉(zhuǎn)映射到文本的編碼,輸出概率最大的結(jié)果,即最有可能的結(jié)構(gòu)化信息。這一decoder結(jié)構(gòu)實(shí)質(zhì)上等于智能選擇并同時完成NER,RE,ER,II 等NLP 任務(wù)

SII 是一種 multi-task learning,包含以下四種 NLP 任務(wù):

命名實(shí)體識別(NER):直接提取信息,如材料名稱和溫度。

實(shí)體標(biāo)準(zhǔn)化(ER):對信息的表達(dá)格式、單位、縮略語等進(jìn)行標(biāo)準(zhǔn)化。

信息推理(II):對文章沒有出現(xiàn)過,或缺失的信息進(jìn)行推理。

實(shí)體關(guān)系提取(RE):辨別單個實(shí)體或?qū)嶓w組之間的聯(lián)系。

SII?任務(wù)的實(shí)施過程主要包括以下幾個步驟:首先,研究人員根據(jù)綜述論文或?FAIR?數(shù)據(jù)集制定一個初始的信息提取方案。這個方案定義了所需提取信息的層次結(jié)構(gòu)、關(guān)鍵屬性以及它們之間的關(guān)系。接下來,研究人員將方案應(yīng)用到?GPT-3?的微調(diào)過程中,以便讓?GPT-3?理解和遵循這個方案。通過這種方式,GPT-3?可以學(xué)會如何從非結(jié)構(gòu)化文本中提取所需的結(jié)構(gòu)化信息,并按照預(yù)定的格式呈現(xiàn)結(jié)果。

經(jīng)過SII任務(wù)訓(xùn)練后,GPT-3?在提取材料科學(xué)領(lǐng)域結(jié)構(gòu)化信息方面的表現(xiàn)得到了顯著提升。例如,GPT-3?可以根據(jù)所提供的文獻(xiàn)信息提取出鈣鈦礦太陽能電池的成分、結(jié)構(gòu)和制備條件等關(guān)鍵信息。同時,GPT-3?還可以處理有關(guān)有機(jī)光伏器件的文獻(xiàn),提取出與器件相關(guān)的重要參數(shù)和特性。

大型語言模型作為萬能鑰匙:用GPT解鎖材料科學(xué)的秘密

圖:Fine-tuned GPT-3 在II, ER-U, ER-T 復(fù)雜文本任務(wù)中的表現(xiàn)

此外,SII?任務(wù)還可以幫助研究人員從文獻(xiàn)中提取更加豐富和復(fù)雜的關(guān)系數(shù)據(jù)。這些數(shù)據(jù)可以用于構(gòu)建知識圖譜,為研究人員提供全面的材料科學(xué)領(lǐng)域知識體系。通過將這些知識應(yīng)用于實(shí)際問題,研究人員可以更加高效地開發(fā)新型材料和器件,推動材料科學(xué)領(lǐng)域的進(jìn)步。

值得注意的是,SII 任務(wù)得到的數(shù)據(jù)可以幫助研究人員發(fā)現(xiàn)新的材料和器件設(shè)計(jì)思路。通過分析?GPT-3?生成的高維數(shù)據(jù)集,研究人員可以探究不同材料參數(shù)(如退火時間、退火溫度、材料厚度和面積等)對器件性能的影響,從而為實(shí)驗(yàn)設(shè)計(jì)提供有益的指導(dǎo)。

傳統(tǒng)的信息提取過程通常需要花費(fèi)大量時間在閱讀文獻(xiàn)、整理信息和分析數(shù)據(jù)上。使用微調(diào)的 GPT-3 完成 SII 任務(wù),可以提高信息提取的準(zhǔn)確性和效率,科研人員可以快速地獲取所需的結(jié)構(gòu)化信息,從而將更多的時間和精力投入到實(shí)驗(yàn)研究和創(chuàng)新設(shè)計(jì)中,節(jié)省大量的時間和精力。

此外,SII?任務(wù)在跨學(xué)科領(lǐng)域的應(yīng)用也具有廣泛的前景。許多科學(xué)領(lǐng)域,如生物學(xué)、化學(xué)和物理學(xué)等,都需要從大量的文獻(xiàn)中提取和分析結(jié)構(gòu)化信息。SII?任務(wù)可以靈活地應(yīng)用于這些領(lǐng)域,幫助研究人員從海量的非結(jié)構(gòu)化文本中快速獲取有價值的知識,從而加速科學(xué)研究的進(jìn)程。

用SII生成的數(shù)據(jù)庫預(yù)測材料和器件性能的能力

通過使用經(jīng)過結(jié)構(gòu)化信息推斷(SII)任務(wù)訓(xùn)練的?GPT-3,我們可以構(gòu)建出具有高度結(jié)構(gòu)化的材料和器件數(shù)據(jù)庫。這些數(shù)據(jù)庫中的信息可以為研究人員提供關(guān)于材料和器件性能的有價值見解,從而有助于更好地理解和預(yù)測材料的性能以及器件的工作原理。

大型語言模型作為萬能鑰匙:用GPT解鎖材料科學(xué)的秘密

圖:Fine-tuned GPT-3 與 深度學(xué)習(xí)算法在預(yù)測有機(jī)太陽能電池的 PCE 的效果比較(MAE: Mean Absolute Errors)

在材料科學(xué)領(lǐng)域,通過對?GPT-3?進(jìn)行?SII?任務(wù)訓(xùn)練,可以有效地從大量文獻(xiàn)中提取出關(guān)鍵的材料參數(shù)和性能指標(biāo)。這些數(shù)據(jù)可以用于訓(xùn)練機(jī)器學(xué)習(xí)模型,從而預(yù)測新材料的性能和可能的應(yīng)用領(lǐng)域。這對于加速材料研究和發(fā)現(xiàn)具有重要的意義。

在器件設(shè)計(jì)方面,通過?SII?任務(wù)生成的數(shù)據(jù)庫,研究人員可以了解不同器件結(jié)構(gòu)和工藝參數(shù)對器件性能的影響,從而為優(yōu)化器件設(shè)計(jì)提供依據(jù)。此外,這些數(shù)據(jù)庫還可以用于探索新型器件的可能性,為實(shí)驗(yàn)研究和創(chuàng)新設(shè)計(jì)提供靈感。

值得注意的是,使用SII任務(wù)生成的數(shù)據(jù)庫預(yù)測材料和器件性能時,還需要充分考慮模型的局限性。例如,GPT-3?的預(yù)測能力可能受限于其訓(xùn)練數(shù)據(jù)中的知識范圍,以及模型本身的復(fù)雜度。因此,在實(shí)際應(yīng)用中,研究人員需要謹(jǐn)慎對待模型的預(yù)測結(jié)果,并結(jié)合實(shí)驗(yàn)數(shù)據(jù)進(jìn)行驗(yàn)證和優(yōu)化。

總之,利用SII任務(wù)生成的數(shù)據(jù)庫預(yù)測材料和器件性能具有巨大的潛力。這一方法可以幫助研究人員更好地理解材料性能和器件工作原理,加速新材料的研究和發(fā)現(xiàn),以及優(yōu)化器件設(shè)計(jì)。同時,我們也應(yīng)充分認(rèn)識到模型的局限性,結(jié)合實(shí)驗(yàn)數(shù)據(jù),不斷提高預(yù)測的準(zhǔn)確性和可靠性。

總結(jié)

在本文中,我們重點(diǎn)介紹了 GPT-3 在材料科學(xué)領(lǐng)域的應(yīng)用及其潛力。通過微調(diào)訓(xùn)練 GPT-3,研究人員可以從大量科學(xué)文獻(xiàn)中提取有價值的信息,并預(yù)測材料性能和器件性能。此外,它們還可以幫助研究人員了解不同器件結(jié)構(gòu)和工藝參數(shù)對器件性能的影響,從而為優(yōu)化器件設(shè)計(jì)提供依據(jù)。隨著 GPT-3 等大型語言模型技術(shù)的不斷發(fā)展和完善,我們有理由相信,它們將在未來的科學(xué)研究中發(fā)揮更加重要的作用。

大型語言模型作為萬能鑰匙:用GPT解鎖材料科學(xué)的秘密

合作研究組織:新南威爾士大學(xué),香港城市大學(xué),悉尼大學(xué),墨爾本大學(xué),DARE 研究中心,律動科技。

原創(chuàng)文章,作者:計(jì)算搬磚工程師,如若轉(zhuǎn)載,請注明來源華算科技,注明出處:http://www.zzhhcy.com/index.php/2024/04/05/8e47634e79/

(0)

相關(guān)推薦

主站蜘蛛池模板: 贵德县| 巩留县| 陵川县| 侯马市| 旬邑县| 巨野县| 宜昌市| 吉隆县| 襄垣县| 龙南县| 吴川市| 沂源县| 西吉县| 当涂县| 柞水县| 元朗区| 普格县| 南木林县| 合阳县| 沁阳市| 邓州市| 封丘县| 项城市| 杭州市| 土默特左旗| 深圳市| 南漳县| 浑源县| 黄大仙区| 云阳县| 新建县| 常熟市| 西林县| 德庆县| 上栗县| 枣强县| 秦安县| 廉江市| 包头市| 桑日县| 乐陵市|