Blog

利用AI工具設計全新蛋白質,可能將徹底轉變醫學領域

Blog Image
利用AI工具設計全新蛋白質,可能將徹底轉變醫學領域

July 12, 2023

"好的,我們開始吧。" 在華盛頓大學(UW)西雅圖的計算化學家 David Juergens 正準備設計一種蛋白質,這種蛋白質在超過30億年的演化過程中從未產生過。

在一次視訊通話中,Juergens 開啟了一個他協助開發的基於雲端的人工智能(AI)工具,名為RFdiffusion。這種神經網路,以及其他類似的工具,正在將定製蛋白質的創建——直到最近都還是一種高度技術性且常常無法成功的追求——帶入主流科學領域。



這些蛋白質可能成為疫苗、治療方法和生物材料的基礎。"這是一個完全變革的時刻,"位於馬薩諸塞州薩默維爾的 Generate Biomedicines 的共同創辦人兼首席技術官 Gevorg Grigoryan 說,這家生物科技公司正在將蛋白質設計應用於藥物開發。

這些工具的靈感來自可以合成逼真圖像的AI軟體,例如今年被廣泛使用來製作一張法國皮草袋的病毒性影像的Midjourney軟體。研究人員發現,一種類似的概念方法可以按照設計師指定的標準來產出逼真的蛋白質形狀——也就是說,例如,可以迅速繪製出應該與其他生物分子緊密綁定的新蛋白質。早期的實驗顯示,當研究人員製造這些蛋白質時,有一部分的確能按照軟體的建議來執行。

研究人員說,這些工具在過去一年已經革命性地改變了蛋白質設計的過程。"這是能力的爆發,"哥倫比亞大學(紐約市)的計算生物學家 Mohammed AlQuraishi 說,他的團隊開發了一種用於蛋白質設計的工具。"你現在可以創造出具有渴望的特質的設計。"

"你正在建構一種為問題定製的蛋白質結構,"在UW的計算生物物理學家 David Baker 說,他的團隊包括 Juergens,開發了RFdiffusion。該團隊於2023年3月釋出了該軟體,並且這週在Nature1期刊上發表了描述該神經網路的論文。(預印本於2022年底釋出,與其他幾個團隊,包括AlQuraishi的2和Grigoryan的3,報告類似的神經網路的時間大約相同。)

Grigoryan 補充說,蛋白質設計者現在首次擁有可以創建新產業的可重現且強大的工具。"下一個挑戰就是,你要如何使用它?"

設計新蛋白質的大挑戰

朱根斯將他需要的蛋白質的幾個規格輸入一個類似網路稅單計算器的網頁表格中。這必須是一個長度為100個氨基酸的蛋白質,並形成一種被稱為同源二聚體的對稱兩蛋白質複合物。華盛頓大學的計算生物化學家喬·沃森表示,許多細胞接受器採用此配置,新的同源二聚體可以是一種合成的細胞信號分子。他也是RFdiffusion的共同開發者,同時也在視訊通話中。但是今天早上的設計只是為了讓它看起來像一個實際的蛋白質。

數十年來,研究人員一直努力構建新的蛋白質。最初,他們嘗試將現有蛋白質的有用部分組合在一起,例如催化化學反應的酶口袋。這種方法依賴於理解蛋白質如何折疊和工作,以及直覺和大量的試驗和錯誤。科學家有時會篩選數千種設計,以找到一種符合預期的設計。

貝克表示,倫敦AI公司DeepMind(現為Google DeepMind)和其他AI基礎模型的AlphaFold為人們帶來了一個領悟的時刻,這些模型可以準確預測氨基酸序列的蛋白質結構。設計師意識到,這些受到真實蛋白質序列和結構訓練的神經網路也可以幫助創建全新的蛋白質。

在過去的幾年中,貝克的團隊和該領域的其他人推出了一系列基於AI的蛋白質設計工具。這些工具使用的一種方法稱為幻覺,該方法涉及創建一串隨機的氨基酸,然後由AlphaFold或名為RoseTTAFold的類似工具進行優化,直到它看起來像神經網路建議的可能折疊成特定結構的東西。另一種稱為修飾的方法,將指定的蛋白質序列或結構片段為中心,使用RoseTTAFold來構建整個分子。

但這些工具遠非完美。實驗傾向於顯示,由幻覺方法設計的結構並不總是在實驗室製作時形成良好折疊的蛋白質,並最終成為試管底部的污物。幻覺方法也無法製作除小蛋白質之外的任何東西(儘管其他研究人員在二月的預印本中顯示了如何使用該技術設計更長的分子)。修飾法在給予較短片段時也無法形成蛋白質。即使這種方法確實產生了一種理論上的蛋白質結構,它也無法提出多樣化的解決方案來提高成功的可能性。

這就是RFdiffusion和近幾個月來推出的類似蛋白質設計AI的用武之地。他們基於和生成逼真圖像的神經網路相同的原理,例如Stable Diffusion、DALL-E和Midjourney。這些'擴散'網路接受訓練,無論是圖像或蛋白質結構,他們會變得逐漸噪音化,最終與初始圖像或結構無關。然後網路學會“去噪”數據,反向進行這項任務。

像RFdiffusion這樣的網路在一個名為蛋白質數據庫(PDB)的存儲庫中,對數萬種真實蛋白質結構進行訓練。當網路創建新的蛋白質時,它從完全的雜訊開始:氨基酸的隨機組合。沃森解釋說:“你在問什麼是蛋白質,它產生了這種雜訊。”經過多輪去噪後,它生成了類似於真實的新蛋白質。

當貝克的團隊在測試RFdiffusion時,除了蛋白質的長度外,沒有提供任何指導,網路生成了多種看起來實際的蛋白質,這些蛋白質與它在PDB中接受訓練的所有東西都不同。

但是,研究人員也能夠在去噪過程中引導程序按照特定的設計約束條件製作蛋白質,這種過程被稱為調節。

例如,貝克的團隊引導RFdiffusion製作包含特定摺疊的蛋白質,或者可以與其他分子的表面相接的蛋白質(這是緊密結合的基礎)。格里戈里揚的團隊甚至開發了一種稱為Chroma的擴散網路,然後引導它製作形狀與英文的26個大寫字母以及阿拉伯數字相似的蛋白質。
Threads
從雜訊中獲取訊號

朱根斯的電腦屏幕最初顯示出雜訊,即AI系統開始的隨機氨基酸組合。他們呈現為紅色的模糊曲線,看起來像幼兒的指彩繪畫。他們逐漸變形,成為越來越複雜的形狀,具有蛋白質特徵,如被稱為α螺旋的緊密螺旋和雙折疊的帶狀形狀,稱為β折疊。朱根斯一邊欣賞只花了幾分鐘就創造出來的作品,一邊說:“這是一個很好的混合alpha-beta拓撲。”“這看起來很好。”

這款工具在貝克的實驗室中得到了廣泛使用。他說:“與一年前相比,設計過程幾乎無法認出。”神經網路在設計挑戰中表現出色,這些挑戰用其他方法處理起來效率低、困難或無法完成。

在他們的研究1中報導的一項分析中,研究人員從另一種蛋白質的一個片段開始,例如被免疫細胞識別的病毒蛋白質的一部分,並指派AI工具產生100種不同的新蛋白質,以觀察有多少種會將所需的動機結合進來。該團隊對25種不同的初始形狀進行了這項挑戰。結果並不總是包含開始的片段,但RFdiffusion為23種動機產生了至少一種蛋白質,而對於幻覺和修飾,這些數字分別是15種和12種。

RFdiffusion也證明了其擅長製造能自我組裝成複雜納米粒子的蛋白質,這些納米粒子可能能夠遞送藥物或疫苗組件。前一種AI方法5也可以製造這種蛋白質,但沃森說RFdiffusion的設計要複雜得多。

當被賦予設計可以粘附到另一種指定蛋白質的蛋白質的任務時,像RFdiffusion這樣的神經網路似乎真的很亮眼。貝克的團隊已經使用該網路創建出強烈結合到癌症、自身免疫疾病和其他狀況中的蛋白質的蛋白質。他說,一項尚未發表的成功案例是設計出強烈結合到一種難以瞄準的免疫信號分子的蛋白質——腫瘤壞死因子受體——這是每年產生數十億美元收入的抗體藥物的目標。“這正在擴大我們可以製造結合劑的蛋白質空間,並提供有意義的療法”,沃森說。

現實世界測試

貝克的團隊正在推出的設計如此之多,以至於測試他們是否按計劃工作已經成為一個嚴重的瓶頸。“一個機器學習人員可以生成足夠的設計,讓100個生物學家忙碌幾個月,”來自馬薩諸塞州劍橋的Microsoft Research的生物醫學機器學習研究員Kevin Yang說,他的團隊已經開發出自己的基於擴散的蛋白質設計工具6。

但是早期的跡象表明RFdiffusion的創造物是真實的。在他們的研究中描述的另一個挑戰中,貝克的團隊將工具用於設計包含p53關鍵部分的蛋白質,這是一種在許多癌症中過度活躍的信號分子(並且是一種理想的藥物目標)。當研究人員製作了軟件設計的95種(通過工程細菌表達蛋白質)時,超過一半保持了p53與其自然目標MDM2綁定的能力。最好的設計比自然p53強約1000倍。當研究人員用幻覺嘗試這項任務時,儘管預計設計將會起作用,但沃森說,在試管中並沒有成功。

總的來說,貝克說,他的團隊發現RFdiffusion的10-20%的設計與他們的目標緊密結合,足以使用,而對於早期的、非AI方法,這個數字不到1%。 (之前的機器學習方法無法可靠地設計結合劑,沃森說)。華盛頓大學的生物化學家Matthias Gloegl說,最近他成功率接近50%,這意味著只需一兩個星期就可以得出有效的設計,而不是幾個月。“這真的很瘋狂,”他說。
Threads
據哈佛大學的進化生物學家Sergey Ovchinnikov說,到6月底,RFdiffusion的雲版本每天大約有100個用戶。澳大利亞悉尼大學的生物化學家Joel Mackay已經在用RFdiffusion設計蛋白質,這些蛋白質能夠結合到他的實驗室研究的其他蛋白質,包括在細胞中控制基因活性的分子,稱為轉錄因子。他發現設計過程簡單,並使用電腦模型驗證理論上,蛋白質應該與轉錄因子結合。

Mackay現在正在測試這些蛋白質在細胞中產生時是否能按照計劃改變基因表達。他希望這種發現可以提供一種簡單的方法來開啟和關閉細胞內的特定轉錄因子,而不是使用可能需要多年才能找到的藥物,如果它們能被發現的話。“如果這種方法對我們的蛋白質類型可靠,那將是一個完全的遊戲改變者,”他說。

未來的改進

最新的模型,如RFdiffusion,是一種“步變”,英國牛津大學的免疫信息學家Charlotte Deane說。但是關鍵的挑戰仍然存在。“它將激勵人們去看看我們能多遠地推這些擴散方法,”她說。

她和其他科學家以及生物技術公司特別感興趣的一個應用是設計更為複雜的結合蛋白質,如抗體,或T細胞(一種免疫細胞)使用的蛋白質受體。這些蛋白質有彈性的迴圈與其目標互鎖,而不是RFdiffusion到目前為止擅長的類似三明治的,平面介面。貝克說,他們正在抗體方面取得進展。

Ovchinnikov和其他人說,一般來說,設計依賴於軟性區域賦予它們採取多種不同形狀能力的生物分子是具有挑戰性的。這些是已經證明使用AI難以模擬的特徵。“如果問題是,我們能否與其他東西綁定並抑制它,”Ovchinnikov說,“我認為這個問題將會使用這些方法來解決。但是為了做一些更複雜的事情,更像自然所做的事情,你需要引入一些靈活性。”

加利福尼亞大學舊金山分校的計算生物學家Tanja Kortemme正在使用RFdiffusion來設計可以用作傳感器或用於控制細胞的開關的蛋白質。她說,如果蛋白質的活性位點依賴於幾個氨基酸的位置,AI網絡表現良好,但是它設計具有更複雜活性位點的蛋白質時會有困難,需要更多的關鍵氨基酸到位 - 這是她和她的同事正在努力解決的挑戰。

Yang說,最新擴散方法的另一個局限是他們無法創造出與自然蛋白質大不相同的蛋白質。這是因為AI系統只在科學家已經確定的現有蛋白質上接受了訓練,他說,並傾向於創造類似於這些的蛋白質。生成更像外星人的蛋白質可能需要更好地理解賦予蛋白質其功能的物理知識。

這可以使設計蛋白質以執行自然蛋癪從未演化出來的任務變得更容易。Yang說:“還有很多的空間可以成長。”

AlQuraishi說,最新的蛋白質設計工具已經證明非常強大,可以創建能夠執行特定任務的蛋白質,只要該功能可以用形狀來描述,例如綁定到的蛋白質的表面。但是,他補充說,如RFdiffusion這樣的工具還無法處理其他種類的規範,例如製作一種蛋白質,該蛋白質可以執行特定的反應,而不考慮其形狀-當“你知道你想要什麼,但是你不知道幾何形狀是什麼”。

Grigoryan說,未來的蛋白質設計工具還需要有產生出適應多種不同標準的蛋白質的能力。潛在的治療性蛋白質不僅必須綁定到其目標,而且不能綁定到其他的,並且應該具有使其容易大規模生產的特性。

研究人員正在探索的一個方向是,是否可以使用簡單的語言文本描述來設計蛋白質,類似於提供給像Midjourney這樣的圖像生成工具的提示。“你可以想象我們將能夠寫出蛋白質的描述,並讓它們被合成和測試,”Watson說。

Grigoryan和他的同事已經朝這個目標邁出了一步。在他們的2022年12月的預印版3中,他們訓練了Chroma將描述附加到其設計上,並按照基於文本的規範產出設計,包括'含有CHAD區域的蛋白質

'(一種包含多個螺旋的蛋白質形狀)或'氨基轉移酶的晶體結構'(參與製造和分解蛋白質的酶)。

Juergens今天早上在幾分鐘內創建的蛋白質只是一個蛋白質的3D結構模型。然後,Juergens使用另一種AI工具來想出應該折疊成該結構的氨基酸序列。最後的檢查,他將序列插入AlphaFold,看看軟體是否預測出與設計匹配的折疊結構。他們一致,與設計的差異平均只有1埃(氫原子的寬度)。

Watson說:“這是我們認為是設計成功的精確度。”他說,剩下要做的唯一事情就是看看蛋白質在現實生活中的表現如何。


新聞原址: https://www.nature.com/articles/d41586-023-02227-y?ref=futurepedia