預測蛋白質序列的新AI模型問世
科技日報北京8月8日電 (記者張佳欣)瑞士洛桑聯(lián)邦理工學院開發(fā)了一種名為CARBonAra的新型人工智能(AI)驅動模型。該模型可以根據(jù)不同分子環(huán)境所施加限制的主鏈支架預測蛋白質序列,有望在蛋白質工程及包括醫(yī)學和生物技術在內的多個領域帶來重大進展。這一成果發(fā)表在最新一期《自然·通訊》雜志上。
CARBonAra是在一個包含約370000個亞基的數(shù)據(jù)集上進行訓練的。它還從蛋白質數(shù)據(jù)庫中額外選取了100000個亞基用于驗證,70000個亞基用于測試。
CARBonAra建立在該團隊開發(fā)的蛋白質結構轉換器框架的基礎上。它使用了幾何轉換器,是一種深度學習模型,可以處理點之間的空間關系(如原子坐標),以學習和預測復雜的結構。該模型突出特點是“上下文”感知能力,這在提高序列恢復率方面尤為明顯。
當CARBonAra包含分子“上下文”,如蛋白質與其他蛋白質、核酸、脂質或離子的界面時,其恢復率顯著提高。
該模型不僅在合成基準測試中表現(xiàn)出色,還經(jīng)過了實驗驗證,其靈活性和準確性為蛋白質工程開辟了新的途徑,增強了未來藥物發(fā)現(xiàn)的能力。CARBonAra在酶工程方面的成功也展示了其在工業(yè)應用中的潛力。