新冠大流行摧毀了許多低/中等收入國家,導致了廣泛的糧食短缺和生活水平急劇下降。為應對這場危機,世界各國政府和人道主義組織已向超過15億人分發了社會援助。其中,精準確定援助目標是一個主要挑戰:在現有數據的情況下,迅速確定哪些人有最大的需求仍然是一項艱巨的任務。為此,加州大學伯克利分校Joshua E. Blumenstock等人開發、實施和評估了一種基于機器學習算法和來自衛星/移動電話網絡的非傳統“大數據”的針對性社會援助的方法。這種方法使用傳統的調查數據來訓練機器學習模型,然后經過訓練的模型可以優先向最貧困的手機用戶提供援助。首先,作者從移動網絡運營商處獲得特定時間段的手機元數據(呼叫詳細記錄CDR),包括通話信息、短信、移動數據流量使用及移動貨幣交易等。然后,使用微軟開發的LightGBM為匹配的CDR數據集訓練梯度增強回歸器。通過五重交叉驗證對模型進行訓練和評估,在每個折疊上獨立調整超參數以獲得數據集中每個觀察結果的樣本外準確性估計和貧困預測。作者在所有調查數據上重新訓練模型并記錄特征重要性,最后使用最終模型為相關時間段內電話網絡上的每個用戶生成財富預測。圖1. 不同救援目標確定機制的福利分析作者通過研究多哥(西非國家)的一個緊急社會援助計劃Novissi(在埃維語中意為團結)來評估這種方法,并使用這些算法支付了價值數百萬美元的COVID-19救濟援助。通過分析比較了不同目標確定制度下的結果,包括排除誤差(即真正的窮人被錯誤地認為沒有資格)、總社會福利和公平性衡量。結果表明,相對于多哥政府考慮的地理定位方法,機器學習方法將排除誤差減少了4~21%;相對于需要全面社會登記的方法(假設練習,多哥不存在這樣的登記),機器學習方法將排除誤差增加了9~35%。這些結果突出了新數據源補充傳統人道主義援助目標方法的潛力,特別是在傳統數據缺失或過時的危機環境中。圖2. 針對不同人口群體救援目標確定的公平性Machine learning and phone data can improve targeting of humanitarian aid, Nature 2022. DOI: 10.1038/s41586-022-04484-9