作者?|?AI4Science workshop組織者
編輯?|?ScienceAI
2021年,一群熱血青年提出了要把AI4Science(AI for Science)帶入機器學(xué)習(xí)頂會NeurIPS。
什么?AI4Science是一門學(xué)科嗎?是不是靠著AI蹭熱點?各種質(zhì)疑聲接踵而來。
這些質(zhì)疑和不解也反映在了第一屆AI4Science workshop的較為平淡的群眾參與度上。
時過境遷,兩年的時間見證了DeepMind基于AlphaFold建立Isomorphic Lab,微軟建立AI4Science Initiative, 以及國內(nèi)深勢科技,AISI等大力推動AI4Science建設(shè)的企業(yè),學(xué)術(shù)機構(gòu)的不斷發(fā)展壯大。
2023年8月,Al4Science workshop組織者們還在《自然》雜志上發(fā)表了總結(jié)了過去幾年里Al4Science在科學(xué)發(fā)現(xiàn)流程上的進展,并為未來指了指路。
去年12月NeurIPS,AI4Science workshop收到超過200篇投稿和上千人次的參與,儼然成為了NeurIPS最大的workshop之一。看到這些數(shù)字,似乎已經(jīng)沒有人再說AI4Science是偽命題了。
Blog 地址:https://medium.com/@AI_for_Science/ai-for-science-in-2023-a-community-primer-d2c2db37e9a7
為什么要強調(diào)AI4Science?
隨著AI在多個學(xué)科各放異彩,另一個問題接踵而至,為什么要強調(diào)AI4Science,大家分別做AI在子領(lǐng)域的應(yīng)用,比如AI4Drug和AI4Materials,不就好了嗎?組織者們指出了這樣幾個原因。
-
跨領(lǐng)域的協(xié)同作用:AI4Science的誕生,不僅促進了AI和各種科學(xué)學(xué)科之間的協(xié)同關(guān)系,還在AI和科學(xué)的不同子領(lǐng)域間搭建了橋梁。這種跨學(xué)科的互動,就像給科學(xué)研究加了一把火,不斷在不同領(lǐng)域催生交融的解決方案。 -
知識的層級組織:就像學(xué)科的不同分類一樣,AI4Science代表了一個更高階的領(lǐng)域,它包含并超越了專門的子領(lǐng)域。AI4Science提供了一個宏觀視角,將AI在特定科學(xué)領(lǐng)域的更專注應(yīng)用連接起來,并賦予它們更廣泛的背景和意義。 -
解決社群大挑戰(zhàn):AI4Science獨具慧眼,專門解決廣泛的、超越單一學(xué)科的社群大規(guī)模挑戰(zhàn)。通過集合多元化的觀點和專長,我們的社群不僅能對付科學(xué)難題,還能面對諸如多樣性、資源、道德和教育等社群系統(tǒng)性挑戰(zhàn) -
獨特的協(xié)作機會: AI4Science匯集了面臨共同挑戰(zhàn)和方法論的各領(lǐng)域?qū)<遥⑶遗囵B(yǎng)年輕一代共享知識,更有效地解決復(fù)雜問題的習(xí)慣。
AI4Science在2023年到底有什么進展呢?
說了這么多,AI4Science在2023年到底有什么進展呢?組織者們先是給出了一些概括性的總結(jié):
-
大型語言模型(LLMs)正影響著所有領(lǐng)域。它們改變了人類與機器的互動方式,并展示了在各個領(lǐng)域的影響力,從化學(xué)和生物學(xué)的實驗規(guī)劃,到計算機科學(xué)中尋找更好的算法,乃至在醫(yī)學(xué)中扮演通才型AI代理。說白了,LLMs就像萬金油,無所不能,不僅幫你搞對話小助手,還能幫你做實驗。
-
自動化實驗室用于數(shù)據(jù)生成和實驗。過去一年里,將AI集成到實驗規(guī)劃中,并使用機器人進行自動化執(zhí)行,這一大進步架起了實驗合成和驗證之間的橋梁。雖然這些舉措還處于發(fā)展的初期階段,但它們展示了不錯的潛力,不僅能測試AI規(guī)劃算法,還能顯著提高數(shù)據(jù)生成的質(zhì)量和數(shù)量。這反過來加速了實驗驗證,有助于完成AI發(fā)現(xiàn)的閉環(huán)。
-
生成模型用于設(shè)計。不只有LLM可以幫助我們生成,擴散模型也可以!擴散模型在多個領(lǐng)域,如設(shè)計新功能蛋白、捕獲化學(xué)反應(yīng)中的過渡結(jié)構(gòu)、從大腦活動重構(gòu)圖像,和量子色動力學(xué)中采樣場配置方面均取得了成功。
-
發(fā)展原子大模型。通用的預(yù)訓(xùn)練得到大模型,隨后在下游任務(wù)中進行微調(diào)。這種做法在科學(xué)領(lǐng)域越來越流行。去年這一方面的努力,尤其是針對原子力場和生物系統(tǒng)的“基礎(chǔ)大模型”,逐漸多了起來。
-
大型科技公司正在推動AI4Science的邊界。微軟、谷歌DeepMind、Meta、英偉達這樣的大型科技公司對AI4Science投入明顯增加。他們卓越的計算能力和AI科學(xué)家的儲備在推動利用AI的各個科學(xué)領(lǐng)域的進步方面越來越有影響力。
-
開源閉源之爭。遺憾的是,近一年越來越多的AI4Science工作選擇不開源,連學(xué)術(shù)界都不例外。這呼吁我們重新探討重點為可重復(fù)性的出版標準。這種討論對于指導(dǎo)科學(xué)界負責(zé)任且有效的共享至關(guān)重要。畢竟AI相關(guān)的領(lǐng)域就是憑借著開源才一直高速發(fā)展的。
回顧2023一年的AI4Science,組織者們將七大學(xué)科分了分類,其中物理,化學(xué)材料,生物和醫(yī)藥的發(fā)展日益成熟,慢慢與實驗結(jié)合并且逐漸走向商業(yè)化。
物理
處理完首張黑洞照片后,AI又幫助人們識別了高能中微子信號。
IceCube團隊使用機器學(xué)習(xí)模型分析來自IceCube Neutrino Observatory的數(shù)據(jù),區(qū)分信號和背景數(shù)據(jù),這使得高能中微子從銀河平面的發(fā)射被以前所未有的精確度檢測到。研究使用卷積神經(jīng)網(wǎng)絡(luò)進行事件選擇,其高速推理(幾毫秒)能力使得研究者可以采取更為復(fù)雜的事件篩選策略。
通過十年的觀測數(shù)據(jù),機器學(xué)習(xí)模型不斷完善,學(xué)會了在宇宙噪聲的背景下精準地鎖定中微子的特征。這些發(fā)現(xiàn)揭示了具有4.5西格瑪重要性的中微子發(fā)射,強調(diào)了銀河系內(nèi)潛在的來源。
在這一背景下,機器學(xué)習(xí)的創(chuàng)新使用不僅增強了天文臺的檢測能力,而且為未來的天體物理探索提供了模式。
化學(xué)與材料
AI在化學(xué)材料的各個領(lǐng)域大放異彩。在自動化化學(xué)和材料合成領(lǐng)域,如Koscher等人的研究以及Szymanski等人的A-Lab項目展示了人工智能與物理世界之間的橋梁。這些項目通過自動化實驗室和基于云的方法,發(fā)現(xiàn)了新的染料分子和無機材料。
在大型語言模型的應(yīng)用方面,如Coscientist和ChemCrow項目利用LLM規(guī)劃實驗,實現(xiàn)了與互聯(lián)網(wǎng)、模型和實驗設(shè)備的交互,展示了LLM在自動化任務(wù)和復(fù)雜實驗室操作中的巨大潛力。
此外,DeepMind的GNoME團隊通過機器學(xué)習(xí)的方法預(yù)測了大量的材料候選者,展示了深度學(xué)習(xí)在材料科學(xué)中的應(yīng)用。
最后,像MIT和Cornell的研究團隊開發(fā)的,在化學(xué)反應(yīng)的過渡狀態(tài)搜索方面取得了重要進展,提供了一種比傳統(tǒng)方法更快更有效的替代方案,并能探索未預(yù)期的反應(yīng)路徑,助力新催化劑的發(fā)現(xiàn)和復(fù)雜反應(yīng)的研究。
生物
領(lǐng)域聚焦到理解蛋白質(zhì)與其他生物小分子和大分子的相互作用。
其中,RosettaFold-AA和AlphaFold-latest作為兩個杰出的代表,不僅僅局限于蛋白質(zhì)結(jié)構(gòu)預(yù)測,還擴展到預(yù)測蛋白質(zhì)與小分子、蛋白質(zhì)、核酸等生物分子的相互作用。
除了對靜態(tài)的蛋白結(jié)構(gòu)的研究,大家的也將目光聚焦在了研究蛋白構(gòu)象空間,比如AF-Cluster通過改變多序列比對來控制AlphaFold輸出不同構(gòu)象。
相對于對蛋白質(zhì)結(jié)構(gòu)和功能的理解,蛋白質(zhì)設(shè)計專注于設(shè)計新的蛋白質(zhì)或修改現(xiàn)有蛋白質(zhì)以實現(xiàn)特定的結(jié)構(gòu)和功能。
在幾何深度學(xué)習(xí)和生成式AI領(lǐng)域(特別是擴散模型)取得進展的基礎(chǔ)上,RFDiffusion和Chroma提出了包含空間對稱性(旋轉(zhuǎn)、平移和反射)的擴散模型,用于生成新蛋白質(zhì)。
除了從頭設(shè)計外,他們還提出了靈活設(shè)計和優(yōu)化蛋白質(zhì)的方法,比如基于結(jié)合靶標,功能,結(jié)構(gòu)的條件,以及基于模型提供指導(dǎo)的結(jié)構(gòu)或功能優(yōu)化。

醫(yī)藥
AI在醫(yī)藥學(xué)方面的應(yīng)用已經(jīng)充分結(jié)合實際應(yīng)用場景并趨于工程化。
Moor等人提出了一種通用醫(yī)學(xué)人工智能(GMAI),該系統(tǒng)能夠解釋多模態(tài)數(shù)據(jù),如影像學(xué)、電子健康記錄、實驗室結(jié)果、基因組學(xué)、圖形或醫(yī)學(xué)文本。GMAI以自監(jiān)督方式在大規(guī)模、多樣化的多模態(tài)數(shù)據(jù)上進行預(yù)訓(xùn)練,并能夠執(zhí)行多樣化的醫(yī)學(xué)應(yīng)用。
Singhal等人策劃了一個在醫(yī)學(xué)領(lǐng)域的大規(guī)模問答數(shù)據(jù)集,并提出了基于PaLM(Google的大型語言模型)的醫(yī)學(xué)領(lǐng)域大型語言模型,也被稱為Med-PaLM, 并首次作為AI模型通過美國醫(yī)學(xué)執(zhí)業(yè)考試。
幾個月后,同一組作者提出了Med-PaLM的第二個版本(Med-PaLM 2)。如圖所示,Med-PaLM 2取得了顯著的里程碑(86.5%(Med-PaLM2),67.2%(Med-PaLM)),成為第一個達到與人類專家相媲美的水平,能夠回答USMLE風(fēng)格問題。醫(yī)生們注意到該模型在回答消費者醫(yī)學(xué)問題的長篇答案方面有顯著的改進。
同時,AI4Science也在一些領(lǐng)域,比如數(shù)學(xué)理論,地球科學(xué)和神經(jīng)科學(xué)開辟了新的賽道并在高速發(fā)展。
數(shù)學(xué)理論
今年,LLM開始發(fā)現(xiàn)新的理論和算法。DeepMind的一項最新研究(FunSearch)展示了LLM用于發(fā)現(xiàn)解決復(fù)雜組合問題的新程序的潛力。FunSearch的主要目標是找到更好的程序來解決難題。
具體來說,它采用了一種在預(yù)訓(xùn)練LLM和評估器之間的迭代和進化過程。在這個過程中,進化算法從程序池中選擇最佳程序候選,輸入到LLM中進行改進。然后,修訂后的程序被評估、打分,并重新放回池中。在這個進化過程中,提出了更好和新的程序。他們驗證了FunSearch在兩個組合優(yōu)化問題——cap set和在線裝箱問題上的有效性,F(xiàn)unSearch找到了比已知最佳解決方案更好的解決方案。
地球科學(xué)
AI技術(shù)實現(xiàn)了在天氣預(yù)測這一傳統(tǒng)上極具挑戰(zhàn)性的任務(wù)突破性的進展。
項目如ClimaX、GraphCast、Pangu-Weather、MetNet-3和PreDiff利用了數(shù)十年的歷史天氣數(shù)據(jù)和數(shù)值物理模擬結(jié)果,推動了在短期和中期天氣預(yù)測方面的高分辨率時空預(yù)測技術(shù)。這些成就在很大程度上依賴于高性能計算資源和對大量數(shù)據(jù)的復(fù)雜處理。
特別值得一提的是,GraphCast通過其獨特的“編碼器-處理器-解碼器”結(jié)構(gòu)的圖形神經(jīng)網(wǎng)絡(luò),專門處理空間結(jié)構(gòu)化的天氣數(shù)據(jù)。而ClimaX則以其全球和區(qū)域范圍的模型及通用基礎(chǔ)模型而聞名,這些模型可以根據(jù)任意組合的輸入變量預(yù)測任意時間點的天氣情況。
除了天氣預(yù)測,人工智能還在數(shù)據(jù)有限的地球科學(xué)領(lǐng)域取得了進展,例如地下結(jié)構(gòu)、生物學(xué)和火山學(xué)。在這些領(lǐng)域,輕量級的人工智能代理模型正在替代傳統(tǒng)的、計算密集型的數(shù)值物理模擬。這些模型不僅加快了預(yù)測速度,還提高了決策過程的效率。
神經(jīng)科學(xué)
AI從腦波中重建圖像,為人類提供了深入了解大腦中的世界模型的機會。盡管這一任務(wù)一直極具挑戰(zhàn)性,生成模型的創(chuàng)新(尤其是隱空間擴散模型)使得這一任務(wù)變得可能。
如果將大腦活動數(shù)據(jù)解釋為“文本”,那么我們就能夠生成基于腦活動數(shù)據(jù)的圖像。令人驚訝的是,這一任務(wù)無需訓(xùn)練復(fù)雜的神經(jīng)網(wǎng)絡(luò),只需使用預(yù)訓(xùn)練的穩(wěn)定擴散模型,僅訓(xùn)練從腦數(shù)據(jù)到潛在向量和上下文向量的線性映射。
此外,AI還被用于理解神經(jīng)活動和行為的對應(yīng)。一種稱作CEBRA的方法能夠應(yīng)用于基于假設(shè)和探索性的分析,并展示了表示在多次實驗、動物和模態(tài)之間對神經(jīng)活動解釋的一致性。這一方法最小程度地利用神經(jīng)編碼中的時間結(jié)構(gòu),大大提升了結(jié)果的魯棒性,有希望成為神經(jīng)科學(xué)研究中的有力工具。
未來的展望和挑戰(zhàn)
最后,經(jīng)歷了2023年的瘋狂,組織者們送上了他們對AI4Science在2024年發(fā)展的期望:
-
開源是加速科學(xué)發(fā)現(xiàn)的關(guān)鍵。開源強調(diào)可復(fù)制和降低各個領(lǐng)域之間的溝通壁壘。這在AI4Science這樣的大融合的方向更為重要。2023年,我們注意到社區(qū)趨向于更加封閉。因此我們在邁向未來的路上,倡導(dǎo)AI4Science社群擁抱開源科學(xué)的理念。
-
某些AI4Science領(lǐng)域正從概念驗證階段轉(zhuǎn)向?qū)嶋H應(yīng)用,把我們的理論知識變成科學(xué)發(fā)現(xiàn)中的可靠工具。這是一個大挑戰(zhàn),不僅需要理念上的,還需要工程和教育上的努力以及資源的支持。相比于LLMs大眾每天都可以看見的進展,由于科學(xué)偏“toB”的屬性,AI4Science的商業(yè)化進程會緩慢很多。不過,這是深化和拓寬科學(xué)發(fā)現(xiàn)的必要步驟。人類對于科學(xué)的探索和轉(zhuǎn)化本身就是一個沒有終點的長跑,需要耐力和堅持!
-
想要解決科學(xué)領(lǐng)域的宏大挑戰(zhàn),需要跨多個領(lǐng)域的知識,而構(gòu)建一個協(xié)作環(huán)境對于推進人工智能和科學(xué)研究至關(guān)重要。這也是我們AI4Science組織者希望給大家打造的環(huán)境。
-
隨著社群的不斷擴大,AI4Science工具被濫用的風(fēng)險也在增長。在開發(fā)新的算法進步時,大家應(yīng)該牢記倫理和安全問題。
本文由部分AI4Science workshop組織者聯(lián)合撰寫:程立雪,杜沅豈,段辰儒,Ada Fang, 符天凡,高文昊,黃柯鑫,劉子鳴,羅迪,王莉晶 (按姓名拼音排序)。
更為詳盡的英文原稿博客見:https://medium.com/@AI_for_Science/ai-for-science-in-2023-a-community-primer-d2c2db37e9a7
原創(chuàng)文章,作者:計算搬磚工程師,如若轉(zhuǎn)載,請注明來源華算科技,注明出處:http://www.zzhhcy.com/index.php/2024/01/25/c529c213b0/