美國麻省理工學(xué)院和塔夫茨大學(xué)研究人員設計出一種基于大型語(yǔ)言模型(如ChatGPT)的人工智能算法,這種稱(chēng)為ConPLex的新模型可將目標蛋白與潛在的藥物分子相匹配,而無(wú)需執行計算分子結構的密集型步驟。相關(guān)論文發(fā)表在最新一期《美國國家科學(xué)院院刊》上。
圖片來(lái)源:物理學(xué)家組織網(wǎng)
使用這種方法,研究人員可在一天內篩選超過(guò)1億種化合物,比任何現有模型都要多得多。這項成果解決了對當前藥物篩選的需求,其可擴展性還能夠評估脫靶效應、藥物再利用以及確定突變對藥物結合的影響。
近年來(lái),科學(xué)家在根據氨基酸序列預測蛋白質(zhì)結構方面取得了巨大進(jìn)步。然而,要預測大型潛在藥物庫如何與致癌蛋白相互作用,依然具有挑戰性,因為計算蛋白質(zhì)三維結構需要大量時(shí)間和計算能力。
麻省理工學(xué)院團隊以他們2019年首次開(kāi)發(fā)的蛋白質(zhì)模型為基礎,此次將模型應用于確定蛋白質(zhì)序列將與特定藥物分子的相互作用。他們用已知的蛋白質(zhì)—藥物相互作用對網(wǎng)絡(luò )進(jìn)行訓練,使其能學(xué)習將蛋白質(zhì)特定特征與藥物結合能力聯(lián)系起來(lái),而無(wú)需計算任何分子的三維結構。
通過(guò)篩選包含約4700種候選藥物分子的庫,團隊測試了他們的模型,并確定了這些藥物與51種蛋白激酶結合的能力。
從熱門(mén)結果中,研究人員選擇了19組“藥物—蛋白質(zhì)對”進(jìn)行實(shí)驗測試,最終12對具有很強的結合親和力,而幾乎所有其他可能的藥物—蛋白質(zhì)對都沒(méi)有親和力。
研究人員表示,藥物研發(fā)成本之所以如此高昂,部分原因是它的失敗率很高。如果能事先預測這種結合不可能奏效,就能減少失敗率,從而大大降低新藥開(kāi)發(fā)的成本。
總編輯圈點(diǎn):
在我們普通人還在用語(yǔ)言模型聊天和寫(xiě)作時(shí),科研人員已經(jīng)看到了它在藥物篩選方面的變革性潛力。藥物研發(fā)耗時(shí)漫長(cháng)且相當昂貴,要做大量的“無(wú)用功”。人工智能已經(jīng)被引入這一枯燥漫長(cháng)的過(guò)程,幫助縮短分子配對的時(shí)間。文中介紹的新模型ConPLex可以分析大量文本,并找到最可能出現在一起的組合。這種基于語(yǔ)言模型研究的思路,超越了目前最先進(jìn)的算法,可在一天內篩選超過(guò)1億種化合物。論文已經(jīng)對篩選結果進(jìn)行了實(shí)驗檢測,結果也令人欣喜。
相關(guān)稿件