盡管生物化學家幾十年來一直在測量生物物理參數,但這些測量通常是低通量的。相比之下,基于高通量測序的分析往往側重于檢測僅間接反映這些數量的富集模式。此外,現代機器學習方法,如深度神經網絡,往往會產生高度過度參數化的黑箱模型,其參數沒有直接的生物物理意義。在此,美國哥倫比亞大學Harmen J. Bussemaker等人描述了一種靈活的機器學習方法并將其稱為ProBound,它可以根據平衡結合常數或動力學速率準確定義序列識別。ProBound使用三層對多庫測序數據系統地建模:1)結合層利用序列識別模型從序列預測結合自由能或酶效率;2)分析層對生成庫的選擇步驟進行編碼并預測所有配體的頻率;3)測序層在測序期間對庫的隨機采樣進行建模。這些層被組合在一個似然函數中,該函數被優化以推斷識別模型。盡管由于隨機庫的復雜性,許多配體具有噪聲計數或完全缺失,但最終的識別模型是穩健的。此外,每一層都易于擴展。默認情況下,對應于特定位置的親和矩陣,結合層可擴展為包括堿基相互作用或多個轉錄因子(TF)的協同結合。分析層的靈活性使替代過程的建模成為可能,如酶改性。最后,可以聯合分析多個測序層以分析更復雜的現象(如甲基化敏感性)。圖1. TF結合模型性能的驗證作者展示了ProBound使用模型來量化TF的行為,該模型可用于探測以前無法訪問的生物物理參數的測序分析,如捕捉DNA改性的影響和多TF復合物的構象靈活性,并直接通過ChIP-seq等體內數據推斷特異性而無需峰值調用。當與稱為KD-seq的分析結合使用時,該方法可以確定蛋白質-配體相互作用的絕對親和力。此外,作者還應用ProBound來分析量化了激酶-底物相互作用的動力學。隨著在序列識別方面的研究越來越復雜,如序列的綜合影響、輔助因素、DNA甲基化和TF濃度或體外和體內觀點的整合,作者預計對互補數據的嚴格整合將變得越來越重要。據預計,ProBound將在配體或底物的合理工程等至關重要的生物技術領域有諸多應用,并為解碼生物網絡和合理設計蛋白質-配體相互作用開辟新途徑。圖2. 綜合建模量化了甲基化和輔助因子對TF結合的影響Prediction of protein-ligand binding affinity from sequencing data with interpretable machine learning, Nature Biotechnology 2022. DOI: 10.1038/s41587-022-01307-0