成果簡介加州大學伯克利分校Omar M. Yaghi院士團隊通過使用提示工程(Prompt Engineering)來指導ChatGPT從不同格式和風格的科學文獻中,自動挖掘出金屬有機框架(MOF)合成條件的文本信息。這有效地減少了由ChatGPT產生的信息誤差傾向,同時,這也克服了以往在科學領域使用大型語言模型(LLMs)所面臨的挑戰性問題。該方法包括開發一個工作流程,實現三個不同的文本挖掘過程,由ChatGPT本身編程。它們都支持解析、搜索、過濾、分類、匯總和數據統一,并在人工、速度和準確性之間進行不同的權衡。作者在該系統提取26257個不同的合成參數,涉及來自同行評審研究文章的大約800個MOFs。這個過程結合了本文所提出的的化學提示(Chem-Prompt)工程策略來指導ChatGPT進行文本挖掘,從而獲得了良好的精度、召回率以及90-99%的F1分數。利用文本挖掘構建的數據集,作者構建了預測MOF實驗結晶結果準確率超過87%的機器學習模型,初步識別了影響MOF結晶的重要因素。此外,作者還開發了一個可靠的基于數據的MOF聊天機器人來回答有關化學反應和合成過程的問題。考慮到使用ChatGPT的過程以統一的格式可靠地挖掘和制表各種MOF合成信息,同時只使用敘述語言,不需要編碼專業知識,可以預計該ChatGPT化學助手將在各種其他化學子學科中扮演著重要角色。相關工作以《ChatGPT Chemistry Assistant for Text Mining and the Prediction of MOF Synthesis》為題在《Journal of the American Chemical Society》上發表論文。同時,這也是Omar M. Yaghi院士在《Journal of the American Chemical Society》上發表的第88篇論文。圖文導讀圖1 ChatGPT化學助手工作流程的示意圖在與化學相關的任務領域,ChatGPT的性能可以通過使用提示工程(PE)得到顯著提高,這是一種精心設計提示的方法,可以引導ChatGPT生成精確和相關的信息。作者提出了以化學為重點的應用中提示工程的三個基本原則,稱為化學提示工程。首先,需要制定提示,以避免從ChatGPT中引出捏造或誤導性的內容。如下表所示。例如,當被要求在沒有任何額外提示或上下文的情況下提供MOF的合成條件時,ChatGPT可能會識別出MOF-99999不存在,但會為現有的名稱為MOF-41、MOF-419和MOF-519的化合物生成合成條件。因此,在問題之后有額外的提示,可以最大限度地減少ChatGPT產生誤差,并迫使ChatGPT根據其知識回答問題,如下表所示。在為ChatGPT設計提示以處理與化學信息相關的文本和問題時,這應該是首先要遵循的原則。其次,需要實施詳細指示,在提示中提供明確的指示,以幫助ChatGPT理解上下文和期望的響應格式。通過將詳細的指導和上下文合并到提示中,我們可以促進ChatGPT更集中和準確的響應。在化學相關的任務中,這種方法縮小了潛在的答案空間,減少了不相關或模棱兩可的回答的可能性。最后是請求結構化輸出,其中包括合并有組織且定義良好的響應模板或指令,以促進數據提取。結構化的輸出能夠有效地提取和解釋關鍵信息,這反過來又可以大大促進該領域的研究和知識的進步。圖2 ChemPrompt工程的三個基本原則通過結合上述這些原則,生成的提示符可以確保ChatGPT產生準確可靠的結果,最終增強其在處理復雜化學相關任務中的實用性(圖2)。進一步采用了交互式提示符改進的思想。在這個思想中,首先要求ChatGPT編寫一個提示符,通過給它提供初步的描述和信息來指導它自己。通過對話,為提示添加更具體的細節和注意事項,用一些文本進行測試,一旦獲得輸出,就可以向ChatGPT提供反饋,并要求它提高提示的質量。圖3 18248個文本片段嵌入的二維可視化為了評估該方法的有效性,對嵌入數據進行了可視化探索(圖3)。通過降低向量的維數,觀察到不同的簇對應于不同的話題。圖4 由ChatGPT直接管理或代管理的各種數據統一任務的示意圖ChatGPT還有助于文本挖掘后的實體解析(圖4)。這一步涉及到標準化數據格式,包括單位、符號和復合表示。對于每個任務,為ChatGPT設計了一個特定的提示符來直接處理數據,或者為ChatGPT生成一個專門的Python代碼。在更簡單的情況下,ChatGPT可以直接處理時間和反應溫度等轉換。對于復雜的計算,利用ChatGPT生成Python代碼。例如,為了計算每種金屬源的摩爾質量,ChatGPT可以根據給定的化合物公式生成相應的Python代碼。為了協調復合對或混合物的表示法,ChatGPT可以將不同的表示法標準化為統一的格式,從而便于后續的數據處理。圖5 基于ChatGPT的文本挖掘過程的多方面性能分析通過首先評估每個進程的執行時間消耗來開始性能分析(圖5a)。如前所述,進程1中的ChatGPT助手專門接受預先選擇的實驗部分進行總結。因此,流程1需要人工干預,以識別和提取論文中的合成部分。在本研究中,228篇論文的完整選擇過程持續了12小時,平均每篇論文約2.5分鐘。這段時間必須被認為是進程1執行的必要時間。對于總結任務,ChatGPT助手展示出了驚人的能力,平均每篇論文花費13秒。考慮到數據集中的某些論文包含超過20個MOF化合物,如果沒有人工智能,以傳統的方式進行人工總結可能會消耗更長的時間,這一點值得注意。通過加速總結過程,有效減輕了重復工作的負擔,為研究人員騰出了寶貴的時間。流程2以完全自動化的方式操作,將分類和結果傳遞流程集成到下一個助手進行匯總。毫無疑問,由于ChatGPT優越的文本處理能力,它在速度方面優于流程1的手動識別和摘要組合。最后,流程3,正如預期的那樣,是最快的,因為它結合了由嵌入驅動的部分過濾,減少了分類任務,隨后提高了速度。所有論文中11個合成參數中TP標簽的分布如圖5b所示。需要注意的是,并非所有的MOF合成條件都需要報告全部11個參數。例如,一些合成不涉及調節劑,在這種情況下,要求ChatGPT為相應的列及其數量分配N/A。隨后,計算了所有三個過程中每個參數的精度、召回率和F1分數,如圖5c和d所示。所有的方法在識別化合物名稱、金屬源名稱、連接劑名稱、調節劑名稱和溶劑名稱方面都表現出良好的效果。然而,它們在準確確定所涉化學品的數量或體積方面遇到了困難。另一方面,反應溫度和反應時間等通常具有固定模式的參數(例如,分別以℃和小時為單位)被所有過程準確識別,從而獲得較高的召回率、精度和F1分數。圖6 分類模型在預測合成MOF結晶態中的性能考慮到通過基于ChatGPT的文本挖掘程序獲得的大量合成條件,利用這些數據來調查、理解和預測MOF材料的結晶條件。在對數據進行統一整理,納入11個綜合參數變量和1個綜合結果目標變量后,為每個綜合參數設計了各自的描述符,能夠穩定表示綜合條件的多樣性和復雜性,并便于將這些變量轉化為適合機器學習算法的特征。根據提取的合成參數,對金屬節點、連接劑、調節劑、溶劑、各自的摩爾比、反應條件等組成了6組化學描述符。為了提取最相關的特征并簡化模型,對80%的總數據進行遞歸特征消除(REF),并進行5倍交叉驗證。其余部分在學習過程中被保留為不可見的集合,用于獨立評估。在所涉及的描述符中,前10個最具影響力的描述符是預測MOF結晶結果的關鍵。這些描述符與化學直覺和我們對MOF晶體生長的理解大致一致。例如,與MOF合成的化學計量有關的描述符,即調節劑與金屬的比例、溶劑與金屬的比例和連接劑與金屬的比例,在排名中占據優先地位。這些描述符反映了精確的化學計量控制在MOF晶體形成中的重要作用,并直接影響結晶過程,在決定MOF晶體的質量和形貌方面起著關鍵作用。緊接其后的是描述符“時間”,它突出了反應持續時間在結晶過程中的重要作用。此外,“金屬價”描述符強調了金屬離子的性質和反應性在MOF合成中的關鍵作用。價態直接影響MOF的二級構建單元(SBUs)和最終結晶狀態。同時,與分子和連接體相關的描述符會影響合成動力學,影響晶體生長的有序性。總之,這一結果提供了對影響MOF結晶的關鍵因素的更好理解,并將有助于設計和優化合成條件,以有針對性地制備單晶或多晶MOF。圖7 MOF聊天機器人的集成工作流程文獻信息ChatGPT Chemistry Assistant for Text Mining and the Prediction of MOF Synthesis,Journal of the American Chemical Society,2023.https://pubs.acs.org/doi/10.1021/jacs.3c05819