機器學習頂刊匯總:Nature、Nat. Sustain.、EES、CEJ、ES&T等成果 2023年10月14日 下午11:40 ? 未全平臺發(fā)布, 頂刊 ? 閱讀 6 1. 加州大學伯克利分校Nature: 機器學習基于移動手機數(shù)據(jù)實現(xiàn)精準扶貧 新冠大流行摧毀了許多低/中等收入國家,導致了廣泛的糧食短缺和生活水平急劇下降。為應對這場危機,世界各國政府和人道主義組織已向超過15億人分發(fā)了社會援助。其中,精準確定援助目標是一個主要挑戰(zhàn):在現(xiàn)有數(shù)據(jù)的情況下,迅速確定哪些人有最大的需求仍然是一項艱巨的任務。 為此,加州大學伯克利分校Joshua E. Blumenstock等人開發(fā)、實施和評估了一種基于機器學習算法和來自衛(wèi)星/移動電話網(wǎng)絡的非傳統(tǒng)“大數(shù)據(jù)”的針對性社會援助的方法。這種方法使用傳統(tǒng)的調(diào)查數(shù)據(jù)來訓練機器學習模型,然后經(jīng)過訓練的模型可以優(yōu)先向最貧困的手機用戶提供援助。 首先,作者從移動網(wǎng)絡運營商處獲得特定時間段的手機元數(shù)據(jù)(呼叫詳細記錄CDR),包括通話信息、短信、移動數(shù)據(jù)流量使用及移動貨幣交易等。然后,使用微軟開發(fā)的LightGBM為匹配的CDR數(shù)據(jù)集訓練梯度增強回歸器。通過五重交叉驗證對模型進行訓練和評估,在每個折疊上獨立調(diào)整超參數(shù)以獲得數(shù)據(jù)集中每個觀察結(jié)果的樣本外準確性估計和貧困預測。作者在所有調(diào)查數(shù)據(jù)上重新訓練模型并記錄特征重要性,最后使用最終模型為相關時間段內(nèi)電話網(wǎng)絡上的每個用戶生成財富預測。 圖1. 不同救援目標確定機制的福利分析 作者通過研究多哥(西非國家)的一個緊急社會援助計劃Novissi(在埃維語中意為團結(jié))來評估這種方法,并使用這些算法支付了價值數(shù)百萬美元的COVID-19救濟援助。通過分析比較了不同目標確定制度下的結(jié)果,包括排除誤差(即真正的窮人被錯誤地認為沒有資格)、總社會福利和公平性衡量。結(jié)果表明,相對于多哥政府考慮的地理定位方法,機器學習方法將排除誤差減少了4~21%;相對于需要全面社會登記的方法(假設練習,多哥不存在這樣的登記),機器學習方法將排除誤差增加了9~35%。這些結(jié)果突出了新數(shù)據(jù)源補充傳統(tǒng)人道主義援助目標方法的潛力,特別是在傳統(tǒng)數(shù)據(jù)缺失或過時的危機環(huán)境中。 圖2. 針對不同人口群體救援目標確定的公平性 Machine learning and phone data can improve targeting of humanitarian aid, Nature 2022. DOI: 10.1038/s41586-022-04484-9 2. 弗里堡大學/哥德堡大學Nat. Sustain.: 強化學習改善生物多樣性保護 當前,超過100萬種物種面臨滅絕,這突出表明了迫切需要制定保護政策從而最大限度地保護生物多樣性,以維持其對人類生活的多方面貢獻。 為此,瑞士弗里堡大學Daniele Silvestro、瑞典哥德堡大學Alexandre Antonelli等人提出了一個基于強化學習(RL)的空間保護優(yōu)先級新框架(CAPTAIN),且該框架始終優(yōu)于使用模擬和經(jīng)驗數(shù)據(jù)的最先進軟件。作者通過CAPTAIN對保護區(qū)進行優(yōu)先排序,量化了區(qū)域和生物多樣性保護的成本和收益之間的權(quán)衡,允許探索多個生物多樣性指標。 其中,RL算法旨在找到“數(shù)據(jù)生成”(從系統(tǒng)當前狀態(tài)中學習,也被稱為“探索”)和“行動”(其效果由結(jié)果量化,也被稱為“開發(fā)”、“獎勵”)之間的最佳平衡。CAPTAIN可以優(yōu)化靜態(tài)政策,即一次性花費所有預算/隨時間推移制定的保護政策,因此特別適合設計政策和測試其短/長期效果。“行動”是通過神經(jīng)網(wǎng)絡根據(jù)系統(tǒng)的狀態(tài)來決定的,神經(jīng)網(wǎng)絡的參數(shù)在RL框架中得到優(yōu)化以使“獎勵”最大化。通過RL對模型進行訓練后,可以利用模擬或經(jīng)驗數(shù)據(jù)來確定在空間/時間上的保護優(yōu)先級。 圖1. CAPTAIN框架和Marxan軟件的表現(xiàn)比較 為了評估該框架的有效性,作者將該其與當前最先進的保護優(yōu)先級規(guī)劃工具Marxan軟件進行了比較。第一次比較表明,CAPTAIN在64%的案例中優(yōu)于Marxan,在防止物種損失方面平均提高了9.2%。第二次比較中CAPTAIN在77.2% 的模擬中優(yōu)于Marxan,平均減少了18.5%的物種損失。為了證明該框架的適用性及可擴展性,作者分析了一個包括22394個保護單元(5×5 km)和1517個特有樹種數(shù)據(jù)的馬達加斯加生物多樣性數(shù)據(jù)集并應用CAPTAIN框架。結(jié)果顯示,CAPTAIN在受保護單位內(nèi)發(fā)現(xiàn)物種范圍的中位數(shù)為22%,遠高于設定的10% 目標和使用Marxan實現(xiàn)的14% 中位數(shù)保護范圍。因此,在瞬息萬變且資源有限的世界中,AI為改善生物/生態(tài)系統(tǒng)的保護和可持續(xù)利用提供了巨大的希望。 圖2. CAPTAIN的實證驗證 Improving biodiversity protection through artificial intelligence, Nature Sustainability 2022. DOI: 10.1038/s41893-022-00851-6 3. 普渡大學/阿貢實驗室EES: DFT+機器學習驅(qū)動設計新型鹵化物鈣鈦礦合金 鹵化物鈣鈦礦性質(zhì)的高度可調(diào)性為光電應用提供了新的機會,也為探索組合化學空間帶來了重大挑戰(zhàn)。 在此,美國普渡大學/阿貢國家實驗室Arun Mannodi-Kanakkithodi等人開發(fā)了一個用于預測具有B位混合的鹵化物鈣鈦礦合金選定化學空間的結(jié)構(gòu)、電子、光學和缺陷特性的框架,由使用PBE和HSE06泛函進行的高通量DFT計算和使用各種組成原子或分子的平均元素屬性作為輸入描述符對結(jié)果數(shù)據(jù)集進行訓練的神經(jīng)網(wǎng)絡(NN)回歸模型組成。 其中,在具有 A、B 和X原子的一組選定選項的ABX3鈣鈦礦的化學空間中,作者利用DFT模擬了具有B位混合化合物的偽立方結(jié)構(gòu),并利用半局域泛函和雜化泛函計算了幾種性質(zhì),包括穩(wěn)定性、晶格常數(shù)、帶隙、空位形成能、折射率和基于光學吸收光譜的光伏品質(zhì)因數(shù)。 圖1. PBE和HSE計算的229種化合物的晶格常數(shù) 此外,NN模型通過對超參數(shù)、訓練-測試拆分和交叉驗證的嚴格調(diào)整對DFT數(shù)據(jù)進行訓練,然后對17955種化合物的數(shù)據(jù)集進行預測從而篩選出具有適當帶隙、光吸收和缺陷容限的穩(wěn)定材料。最終,獲得了574種有前途的化合物,根據(jù)其光伏品質(zhì)因數(shù)被列為潛在吸收劑。 作者揭示了篩選的一組有吸引力的混合陽離子鹵化物鈣鈦礦的組成趨勢,其中甲基銨(MA)和甲脒(FA)基碘化物占優(yōu)勢,B位混合包含較大比例的Pb和Sn及較小比例的Ge、Ba、Sr和Ca。這里開發(fā)的數(shù)據(jù)驅(qū)動設計框架有望用于設計新穎的鈣鈦礦混合組成且可以擴展到更廣泛的化學空間,將有助于下一代光電子、功率器件和相關應用的新型結(jié)構(gòu)、成分和合成途徑的加速設計。 圖2. 篩選過程中鈣鈦礦組成空間的可視化 Data-Driven Design of Novel Halide Perovskite Alloys, Energy & Environmental Science 2022. DOI: 10.1039/D1EE02971A 4. 師慶東/許紫峻CEJ: 機器學習輔助多發(fā)射傳感器高精度檢測重金屬離子 熒光傳感器陣列檢測具有多樣性、簡單性、高精度、高選擇性及更省時等優(yōu)點,在檢測多種重金屬離子方面受到廣泛應用。由于陣列傳感檢測的各種差異分析方法,迫切需要開發(fā)基于多種方法的最優(yōu)模型。此外,這些模型缺乏通用性,難以應用于更廣泛的研究。 在此,新疆大學師慶東教授、許紫峻等人構(gòu)建了一種基于碳點(QR-CDs)和新型鑭系配合物(EDTA-Tb3+)的簡易多發(fā)射熒光傳感器陣列,能夠同時獲取多維數(shù)據(jù)從而提高了對多種重金屬離子的檢測效率和準確性。由于金屬離子和多發(fā)射傳感器之間的良好響應,熒光強度(FI)隨著金屬離子添加到系統(tǒng)中而變化。 為了應對建立通用模型的挑戰(zhàn),作者通過“逐步預測”策略結(jié)合機器學習方法構(gòu)建了一個創(chuàng)新的統(tǒng)一模型(SX-model)以獲得最優(yōu)的篩選方法。該模型在基于樹的管道優(yōu)化技術(TPOT)框架下集成了分類和集中模型,建立了每種金屬離子濃度與測量的FI數(shù)據(jù)之間的邏輯關系。然后,通過TPOT選擇了極端隨機森林(ERF)作為各種方法中準確率最高的分類模型方法。 圖1. SX-模型構(gòu)建流程圖 研究表明,基于ERF輔助的傳感器陣列展示了對0.05~50 μM范圍內(nèi)的七種單一重金屬離子(Cr6+、Fe2+、Cu2+、Fe3+、Mn2+、Co2+和Ni2+)的靈敏檢測,準確度為95.6%且R2為0.73,這表明該模型可以成功地用于去離子水中單個金屬離子的定量。同時,該模型可有效地識別二元混合樣本,所有60個不同比例的混合樣本都可以完全相互分離,從而達到100% 的檢測精度。 此外,作者還對288個真實樣品(取自湖水和土壤樣品)中的金屬離子進行了有效鑒定,準確率分別為93.3%和100%。因此,這項研究證明了多發(fā)射熒光傳感器陣列在復雜環(huán)境中快速、高效和以低檢測限檢測多種重金屬含量的巨大潛力。此外,獨創(chuàng)的具有普適性的SX-模型有助于陣列檢測,滿足了建立陣列檢測通用模型的挑戰(zhàn)。 圖2. SX模型區(qū)分真實樣品中的金屬離子 Multi-emission fluorescent sensor array based on carbon dots and lanthanide for detection of heavy metal ions under stepwise prediction strategy, Chemical Engineering Journal 2022. DOI: 10.1016/j.cej.2022.135690 5. 清華大學王笑楠ES&T: 機器學習預測生物炭對土壤重金屬的固定效率 生物炭的應用是修復受污染土壤的一種有前途的策略,同時確保可持續(xù)的廢物管理。重金屬(HM)污染土壤的生物炭修復主要取決于土壤、生物炭和HM的性質(zhì),在生物炭改良土壤中固定HM的最佳條件因地點/研究而異。因此,需要一種通用的方法來預測生物炭改良土壤中HM的固定效率。 為此,清華大學王笑楠副教授、高麗大學Yong Sik Ok等人開發(fā)了機器學習(ML)模型來預測HM在生物炭改良土壤中的固定效率。一般統(tǒng)計方法只能實現(xiàn)單個因素與目標之間的樣本線性或二次相關,而ML方法可以同時考慮最大可能的相關因素并識別與目標的復雜相關性。 作者收集了162個數(shù)據(jù)點并用于ML 探索,考慮了20個輸入變量來評估其對生物炭處理土壤中HM固定化的作用和影響,包括熱解溫度、生物炭性質(zhì)(pH和表面積)、生物炭組成(C、H、N、O和灰分含量)、原子比(H/C、O/C 和[O + N]/C)、實施條件(生物炭添加率、實施持續(xù)時間和有效HM濃度)和土壤特性(pH和電導率)。此外,HM固定被定義為輸出變量。歸一化后的數(shù)據(jù)集被隨機分為兩部分:85% 用于ML模型訓練,其余15%用于最終模型評估。 圖1. ML框架策略的流程圖 為確保整個數(shù)據(jù)集的一致性并獲得缺失的數(shù)據(jù)點,作者開發(fā)了3種ML算法(隨機森林-RF、支持向量回歸-SVR、神經(jīng)網(wǎng)絡-NN)以使用熱解溫度、pH、成分和原子比推導出缺失的表面積(SA)數(shù)據(jù)作為輸入。作者發(fā)現(xiàn)H/C原子比是SA預測的最重要特征,這是一個未報道過的新發(fā)現(xiàn)。第二個最重要的特征是pH,其次是生物炭熱解溫度。此外,具有最佳調(diào)整超參數(shù)的RF模型是預測HM固定效率的最佳算法,其測試R2和RMSE分別為0.91、10.54%。因果分析表明,影響HM固定效率特征重要性排序為生物炭性質(zhì)>實施條件>土壤性質(zhì)>HM性質(zhì)。因此,本研究針對生物炭/土壤性質(zhì)對HM固定化的影響提出了新的見解,可幫助確定生物炭改良土壤中增強HM固定的最佳條件。 圖2. 三種ML模型的預測性能 Prediction of Soil Heavy Metal Immobilization by Biochar Using Machine Learning, Environmental Science & Technology 2022. DOI: 10.1021/acs.est.1c08302 6. 南信大楊洋教授ES&T: 機器學習預測排放/氣候變化驅(qū)動的氣溶膠變化 未來氣溶膠的預測和了解氣溶膠變化的驅(qū)動因素對于改善大氣環(huán)境和減緩氣候變化具有重要意義。第六次國際耦合模式比較計劃(CMIP6)提供了各種氣候預測,但氣溶膠輸出有限。 為此,南京信息工程大學楊洋教授等人基于機器學習方法預測了2015年至2100 年的未來近地表氣溶膠濃度,分析了未來排放和氣候變化對氣溶膠變化的影響。具體而言,作者使用隨機森林(RF)模型來預測全球氣溶膠濃度,以全球大氣化學傳輸模型(GEOS-Chem)中的結(jié)果進行訓練。通過檢查特征重要性分數(shù),作者發(fā)現(xiàn)排放是RF模型最重要的特征,土地覆蓋對模型的貢獻為10%且與氣溶膠濃度呈負相關,其他因素的貢獻小于10%。 此外,RF模型在全球大部分地區(qū)表現(xiàn)良好,在大約80%的陸地區(qū)域中R2大于0.85,尤其是在東亞、南亞、歐洲和北美等關鍵區(qū)域。然而模型在估算北美和亞洲高緯度地區(qū)的氣溶膠時存在較大偏差,主要與中緯度地區(qū)的污染物遷移或當?shù)厝紵欧庞嘘P。 圖1. RF模型估計的歷史PM 2.5濃度性能統(tǒng)計的空間分布 接下來,作者使用RF模型基于CMIP6多模型模擬數(shù)據(jù)在考慮所有重要因素的條件下創(chuàng)造性地預測未來的氣溶膠濃度。結(jié)果表明,在低排放情景(SSP1-2.6和SSP2-4.5)下,與2020年(2015~2024年的平均值)相比,預計2095年(2091~2100年平均值)東亞PM2.5濃度將下降40%,南亞下降20~35%,歐洲和北美下降15~25%,這主要是由于預期的減排措施造成的。若僅受氣候變化驅(qū)動,在高強制情景下(SSP5-8.5),中國北部和美國西部的PM2.5濃度將增加10~25%,中國南部、南亞和歐洲將減少0~25%,這說明全球氣候變暖對氣溶膠的調(diào)節(jié)作用更強,凸顯了氣候變化在調(diào)節(jié)未來空氣質(zhì)量方面的重要性。在未來的研究中,為了更好地預測特定區(qū)域的未來空氣質(zhì)量,更需要局部排放數(shù)據(jù)集。 圖2. 不同情景下2020~2095年區(qū)域氣溶膠濃度的百分比和絕對變化 Projected Aerosol Changes Driven by Emissions and Climate Change Using a Machine Learning Method, Environmental Science & Technology 2022. DOI: 10.1021/acs.est.1c04380 原創(chuàng)文章,作者:v-suan,如若轉(zhuǎn)載,請注明來源華算科技,注明出處:http://www.zzhhcy.com/index.php/2023/10/14/a4c592bb52/ 機器學習 贊 (0) 0 生成海報 相關推薦 中大Joule:近100%選擇性!LRL實現(xiàn)高效和選擇性CO2還原為CO 2022年12月12日 支春義教授,最新Angew! 2023年12月12日 Acc. Chem. Res.頂級綜述:逐層組裝多層電極在電催化體系的獨特行為! 2023年10月24日 殺瘋了!高熵+電池,發(fā)完Nature再發(fā)Science! 2023年10月15日 中南侯紅帥Small:碳點激發(fā)固態(tài)電池鋰離子動力學 2023年10月26日 趙立東Nature子刊:廉價地球?qū)毑亍猲型PbS0.6Se0.4熱電材料! 2024年5月9日