Blog

微軟EvoDiff:顛覆蛋白質設計,開啟高保真與多樣性的新篇章

Blog Image
微軟EvoDiff:顛覆蛋白質設計,開啟高保真與多樣性的新篇章

September 19, 2023

重點摘要:
  1. 微軟推出了名為「EvoDiff」的通用框架,能在不需要目標蛋白質的結構信息的情況下,生成「高保真度」和「多樣性」的蛋白質,大幅簡化了蛋白質設計的過程。
  2. EvoDiff的核心是一個擁有640萬參數的模型,該模型經過大量不同物種和功能類別的蛋白質數據訓練而成,具有高度的通用性和可擴展性。
  3. 雖然EvoDiff的研究尚未經過同行評審,但微軟的數據科學家表示,該框架在未來有潛力進一步擴展和商業化,並計劃在實驗室中進行更多的測試。
 


新聞內文:

蛋白質是自然分子,負責體內關鍵細胞功能,是所有疾病的基石。對蛋白質進行特徵化可以揭示疾病的機制,包括減緩或可能逆轉它,而創造蛋白質可以生成全新類別的藥物和治療方法。
 
但目前在實驗室設計蛋白質的過程既成本昂貴又耗人力資源。包括提出可能在體內執行特定任務的蛋白質結構,然後找到可能『折疊』成該結構的蛋白質序列,由氨基酸組成的序列(蛋白質必須正確折疊成三維形狀以執行其預定功能)。
 
但實際上,這不必如此複雜。
 
本週,微軟推出了一個通用框架「EvoDiff」,該公司聲稱可以在給定蛋白質序列的情況下生成「高保真度」和「多樣性」的蛋白質。與其他蛋白質的生成框架不同,EvoDiff不需要有關目標蛋白質的結構訊息,省略了通常最費時的步驟。
 
微軟高級研究員Kevin Yang表示,EvoDiff的開源,可以用於創造新治療和藥物傳遞方法的酶,以及用於工業化學反應的新酶。
 
EvoDiff的共同創作者之一Kevin Yang在電子郵件訪談中告訴TechCrunch「我們預見EvoDiff將擴展蛋白質工程的能力,超越結構功能範式,朝向可編程、以序列為先的設計」。「通過EvoDiff,我們展示了我們實際上可能不需要結構,而是『蛋白質序列就是你需要的一切』,可以可控地設計新蛋白質」。
 
EvoDiff架構的核心是一個640萬參數模型,該模型是通過訓練來自不同物種和功能類別的蛋白質數據而得到的。(「參數」是從訓練數據中學到的AI模型的部分,基本上定義了模型對問題的技能,在這種情況下生成蛋白質。)用於訓練該模型的數據來自於用於序列對齊的OpenFold數據集和UniRef50,這是UniProt的數據子集,UniProt由UniProt聯盟維護,包含蛋白質序列和功能資訊的數據庫。
 
EvoDiff是一個擴散模型,類似於許多現代圖像生成模型,如Stable Diffusion和DALL-E 2。EvoDiff學習如何逐步從幾乎完全由噪聲組成的起始蛋白質中減去噪聲,然後一步一步地將其移近到蛋白質序列。
 
The process by which EvoDiff generates proteins. Image Credits: Microsoft EvoDiff
 
擴散模型越來越多地應用於圖像生成以外的領域,從創造新蛋白質的設計(如EvoDiff)到創造音樂,甚至合成語音。
 
微軟高級研究專員Ava Amini,EvoDiff的另一位貢獻者,通過電子郵件表示:「如果從EvoDiff中帶走一點,我認為應該是這個想法,即由於我們能夠實現的通用性、規模和可擴展性,我們應該可以在序列上進行蛋白質生成」。「我們的擴散架構賦予我們這種能力,也能控制如何設計這些蛋白質以滿足特定的功能目標」。
 
正如Amini所言,EvoDiff不僅可以創造新蛋白質,還可以填補現有蛋白質設計中的「空白」。如果提供了一部分與另一個蛋白質結合的蛋白質,模型可以生成符合一定標準的蛋白質氨基酸序列,例如。
 
值得注意的是,EvoDiff背後的研究尚未經過同行評審 - 至少目前還沒有。參與該項目的微軟數據科學家Sarah Alamdari承認,在該框架可以商業化使用之前,還需要進行「更多的擴展工作」。
 
Alamdari在電子郵件中說道「這只是一個640萬參數模型,如果我們擴展到數十億參數,我們可能會看到更高的生成品質」。「儘管我們演示了一些粗粒度的策略,但為了實現更精細的控制,我們希望能夠條件EvoDiff以文本、化學許席或其他方式來指定所需的功能」。
 
作為下一步,EvoDiff團隊計劃在實驗室中測試模型生成的蛋白質是否可行。如果它們被證明是可行的,他們將開始研發下一代框架。
 
 
新聞原址: https://techcrunch.com/2023/09/14/microsoft-open-sources-evodiff-a-novel-protein-generating-ai/