古代史研究依賴于諸如金石學之類的學科,即研究銘文并將其作為古代文明思想、語言、社會和歷史的證據。然而,幾個世紀以來,許多銘文已經被損壞到難以辨認的程度,或是被運到遠離其原始位置的地方,而且其書寫日期也充滿了不確定性。然而,用于修復和歸因銘文的傳統金石學方法涉及高度復雜、耗時且專業的工作流程。在此,英國DeepMind公司Yannis Assael、意大利威尼斯大學Thea Sommerschield等人通過使用最先進的機器學習方法克服了當前金石學研究的限制,受生物神經網絡的啟發,深度神經網絡可以在大量數據中發現和利用復雜的統計模式。作者展示了一種經過訓練的名為Ithaca(伊薩卡,古希臘神話英雄奧德修斯的故鄉)的深度神經網絡架構,可以同時執行文本恢復、地理/時間歸因的任務。該架構以公元前7世紀到公元5世紀期間的古希臘語言和整個古代地中海世界的銘文進行訓練,數據集來源于帕卡德人文學院(PHI),由178551 個銘文的轉錄文本組成。這種選擇主要有兩個原因:首先,希臘銘文記錄的內容和上下文的可變性,這使其成為語言處理的絕佳挑戰;其次,古希臘語的數字化語料庫是訓練機器學習模型的重要資源。圖1. Ithaca架構處理流程示例為了應對部分文字丟失的挑戰,作者將字符和單詞的共同表示作為Ithaca的輸入,用特殊符號“[unk]”表示損壞、丟失或未知的單詞。研究表明,該架構側重于協作、決策支持和可解釋性。雖然歷史學家、Ithaca在單獨修復受損文本時僅分別達到25%、62% 的準確率,但二者結合修復的準確率可提高至72%,證實了該研究工具的協同效應。此外,Ithaca實現了以71%的精確度將銘文定位到其原始地理位置,且將其年代追溯到距其真實年代范圍不到30年的時間,從而重新編輯了古典雅典的關鍵文本并為古代史上的專題辯論做出了貢獻。這項研究展示了Ithaca模型如何促進AI和歷史學家之間的合作,從而徹底影響人類歷史上最重要時期之一的研究和撰寫。圖2. Ithaca架構的輸出結果示例Restoring and attributing ancient texts using deep neural networks, Nature 2022. DOI: 10.1038/s41586-022-04448-z