發展援助在幫助發展中國家實現可持續發展目標(SDG)方面發揮著至關重要的作用,其監測為決策者資助SDG提供了重要證據。然而,現有的全球發展援助監測存在相當大的局限性,導致極其困難和昂貴。一個主要原因是全球援助體系結構高度分散,其中不同的捐助者為不同受援國的大量援助活動提供資金。為此,瑞士蘇黎世聯邦理工學院Malte Toetzke等人開發了一個機器學習框架,該框架能夠根據經濟合作與發展組織(OECD)的債權人報告系統(CRS)中提供的捐助者文字描述對發展援助活動進行全面而細致的分類。具體而言,數據包含在2000年至2019年間進行的約320萬份援助活動的文字描述,由757個不同的捐助組織資助,總支出為3.2萬億美元。作者將這些活動的文字描述聚集成173個活動集群,其中70個活動集群涵蓋了尚未進行實證分析的主題(如溫室氣體減排和孕產婦保健)。此外,該機器學習框架遵循自下而上的方法,在生成分類之前對所進行的援助活動的所有文本描述進行處理。這與現有監測中自上而下的方法形成鮮明對比,在這種方法中,標準化標簽必須事先預先確定,然后分配給新的援助活動。圖1. 機器學習框架生成的活動集群概覽該框架包含3個主要步驟:首先,輸入是所有援助活動的文本描述,它們被嵌入到200維向量空間。在這個空間中,具有相似主題的活動描述彼此接近,而不同主題的活動描述則更遠。其次,活動描述的文檔嵌入被聚類以將具有相似主題的活動分組到同一類別中。最后,分析每個集群的內容并為集群提供名稱。這種機器學習框架的自下而上方法帶來了三個重大優勢:首先,該框架確保了援助主題的準確表示,并使分類適應新興主題(如青年賦權、小額信貸)。其次,該框架通過算法對數以百萬計的個人援助活動進行分類,從而確保對援助活動的解釋具有一致性。第三,該框架產生了高粒度的援助主題,因此可以更精確地分解發展援助。總之,這項研究在推進可持續發展領域的數據驅動分析方面邁出了重要的一步,可對全球援助活動進行更具成本效益、更細粒度和更全面的監測。圖2. 分配給受援國發展援助的全球分布Monitoring global development aid with machine learning,?Nature Sustainability?2022. DOI: 10.1038/s41893-022-00874-z