【新智元導讀】谷歌DeepMind又有重磅研究了!AlphaFold 3一經(jīng)推出,就登上Nature頭版。從此,人類沖破「蛋白質(zhì)宇宙」,所有生物分子結(jié)構(gòu)都可以預測了!這次使用的,還是AI革命最核心的組合架構(gòu)——Transformer+Diffusion。
時隔3年,AlphaFold 3橫空出世,再次掀起AI學術(shù)圈巨震!
編輯:編輯部 【新智元導讀】谷歌DeepMind又有重磅研究了!AlphaFold 3一經(jīng)推出,就登上Nature頭版。從此,人類沖破「蛋白質(zhì)宇宙」,所有生物分子結(jié)構(gòu)都可以預測了!這次使用的,還是AI革命最核心的組合架構(gòu)——Transfor© 由 新智元 提供
初代AlphaFold誕生之后,一直停留在預測「蛋白質(zhì)」的宇宙中。
今天,升級后的AlphaFold 3能夠以前所未有的「原子精度」,預測出所有生物分子的結(jié)構(gòu)和相互作用。
最重要的是,與傳統(tǒng)方法相比,AF3預測相互作用的準確率暴漲50%。
對一些重要的相互作用類型,其預測精度甚至可以提升100%。
最新研究已在Nature發(fā)表,并登上今天的頭版。
文章地址:https://www.nature.com/articles/d41586-024-01383-z
論文地址:https://www.nature.com/articles/s41586-024-07487-w
谷歌DeepMind聯(lián)合創(chuàng)始人、CEO Demis Hassabis表示,AlphaFold 3的發(fā)布是一個重要的里程碑,在AI理解和建模生物學的道路上,AI又邁出了重要一步!
AlphaFold 3可以生成蛋白質(zhì)、核酸(DNA/RNA)和更小分子的3D結(jié)構(gòu),并揭示它們?nèi)绾谓M合在一起。
它還可以模擬細胞之間化學變化,以控制細胞的正常運轉(zhuǎn),預防疾病發(fā)生。
AlphaFold 3一夜預測地球所有生物分子,谷歌DeepMind顛覆生物學登Nature頭版!© 由 新智元 提供
7R6R - DNA結(jié)合蛋白:AlphaFold 3對一個分子復合體的預測展現(xiàn)了蛋白質(zhì)(藍色)與DNA雙螺旋(粉色)的結(jié)合,其預測結(jié)果與通過繁復實驗得到的真實分子結(jié)構(gòu)(灰色)高度吻合
與Sora一樣,它是一個生成式神經(jīng)網(wǎng)絡(luò)模型。
很明顯,谷歌DeepMind團隊已經(jīng)用上了這波AI革命最核心的組合架構(gòu)——Transformer+Diffusion!
得益于新一代技術(shù)架構(gòu),AlphaFold 3成為了「單一AI模型」。
它能以全面的方式計算整個分子復合體,并生成最精準的結(jié)構(gòu)。
AlphaFold 3一夜預測地球所有生物分子,谷歌DeepMind顛覆生物學登Nature頭版!© 由 新智元 提供
8AW3 - RNA修飾蛋白:AlphaFold 3對一個包含蛋白質(zhì)(藍色)、一條RNA(紫色)和兩個離子(黃色)的分子復合體的預測與真實結(jié)構(gòu)(灰色)非常吻合
同在今天,谷歌DeepMind還推出了免費研究平臺「AlphaFold Server」,供全球科學家非商業(yè)化研究。
不論每個人的技術(shù)專長如何,只需點擊幾下,就可以利用AlphaFold 3在10分鐘內(nèi)預測分子,并測試假設(shè)。
AlphaFold 3一夜預測地球所有生物分子,谷歌DeepMind顛覆生物學登Nature頭版!© 由 新智元 提供
值得一提的是,AlphaFold 3已在自家實驗室Isomorphic Labs,實現(xiàn)了高度準確預測配體-受體相互作用,并幫助他們構(gòu)想藥物發(fā)現(xiàn)的過程。
如下是,AlphaFold 3預測不存在的Tim-3免疫蛋白結(jié)構(gòu),結(jié)果幾乎一致!
AlphaFold 3一夜預測地球所有生物分子,谷歌DeepMind顛覆生物學登Nature頭版!© 由 新智元 提供
在DeepMind首席執(zhí)行官Demis Hassabis看來,這將是價值千億美元的產(chǎn)業(yè)。
未來的某一天,AlphaFold或許將摘下藥物發(fā)現(xiàn)的「圣杯」。
截至目前,全球已經(jīng)有180+萬的科學家使用AlphaFold加速研究,包括開發(fā)生物可再生材料,或推進基因研究。
這一刻,對于所有人來說,AlphaFold 3簡直就是海嘯級的存在。
AlphaFold 2的致命性短板,AlphaFold 3補上了!
2021年發(fā)布的AlphaFold 2,對生物學產(chǎn)生的影響已經(jīng)是革命性的。它以堪比傳統(tǒng)實驗方法的驚人準確度,根據(jù)氨基酸序列預測蛋白質(zhì)結(jié)構(gòu)。
免費訪問的AlphaFold數(shù)據(jù)庫,收錄了幾乎所有已知蛋白的預測結(jié)構(gòu),AlphaFold 2的代碼也已開源。
AlphaFold 3一夜預測地球所有生物分子,谷歌DeepMind顛覆生物學登Nature頭版!© 由 新智元 提供
然而,在DeepMind 研究團隊領(lǐng)頭人John Jumper看來,AlphaFold 2卻并未達到顛覆性影響。
原因何在?
這是因為,AlphaFold 2在預測蛋白質(zhì)生態(tài)系統(tǒng)時,仍存在許多局限。
而它無法準確預測的這些領(lǐng)域,卻對科學家極為重要。
比如對蛋白質(zhì)的修飾——添加磷酸鹽分子后,就可以使細胞對外部信號(如感染)作出反應,并引發(fā)一連串行為。另外,與DNA、RNA及其他化學物質(zhì)的相互作用,對許多蛋白質(zhì)的功能也至關(guān)重要。
AlphaFold 3一夜預測地球所有生物分子,谷歌DeepMind顛覆生物學登Nature頭版!© 由 新智元 提供
遺憾的是,這些領(lǐng)域,對AlphaFold 2還是一塊黑域。
而在Jumper看來,最理想的工具,應該同時具備預測蛋白質(zhì)結(jié)構(gòu)及其配件結(jié)構(gòu)的能力。比如谷歌DeepMind希望,能夠解析整個PDB蛋白質(zhì)數(shù)據(jù)庫。
令人驚喜的是,AlphaFold 3出現(xiàn)了!
對于預測蛋白質(zhì)結(jié)構(gòu)及其相互作用伙伴,AlphaFold 3的有效性都遠超現(xiàn)有的工具。
比如,希望發(fā)現(xiàn)新藥物的科學家,都會借助docking軟件來確認蛋白質(zhì)結(jié)構(gòu),物理模擬蛋白質(zhì)與化學物質(zhì)的結(jié)合效果。
而AlphaFold 3的實驗效果就要好于docking,以及另一個AI工具RoseTTAFold All-Atom。
倫敦Francis Crick研究所的生物化學家Frank Uhlmann在使用過AlphaFold 3,就表示效果喜人!
他的團隊利用AlphaFold 3,預測了參與基因組復制的DNA相互作用蛋白的結(jié)構(gòu),這是細胞分裂的關(guān)鍵步驟。
2017年加入谷歌DeepMind的John Jumper領(lǐng)導了開發(fā)AlphaFold 3的團隊
在之后的實驗中,他們使用了變異蛋白來改變相互作用,結(jié)果顯示:預測結(jié)果非常準確。
華盛頓大學西雅圖分校的計算生物物理學家David Baker評價說:「AlphaFold 3的結(jié)構(gòu)預測表現(xiàn)非常出色?!?/p>
Baker團隊就是RoseTTAFold All-Atom的開發(fā)者,但他還是承認AlphaFold 3的表現(xiàn)更好。
所有生物分子結(jié)構(gòu)和相互作用,從此可以被預測
在每個植物、動物和人類的細胞中,存在著數(shù)十億個微小的分子機器,它們由蛋白質(zhì)、DNA以及其他分子構(gòu)成。然而沒有一個部分可以單獨發(fā)揮作用。
如何真正開始理解生命的過程?唯有通過研究這些分子如何在數(shù)百萬組合中相互作用。
由此,AlphaFold 3的誕生便顯得意義重大!
因為有了它,從此人類能夠以前所未有的精度,預測所有生物分子的結(jié)構(gòu)和相互作用。
對于蛋白質(zhì)與其他分子相互作用的預測,AlphaFold 3相比現(xiàn)有方法至少有50%的提升,對一些重要的相互作用類型,預測精度甚至可以提升100%。
我們對生物世界和藥物發(fā)現(xiàn)的認識,可能從此會被AlphaFold 3徹底改變。
這次,谷歌DeepMind也留了一手。他們并未在論文中公布AlphaFold3的代碼和底層信息,但模型的大部分功能仍然可以通過AlphaFold Server平臺免費使用。
AlphaFold 3模型的構(gòu)建,是以前代AlphaFold 2為基礎(chǔ)的。
AlphaFold 2多次榮登Nature和Science封面
自AlphaFold 2問世以來,全世界數(shù)百萬研究者已經(jīng)在瘧疾疫苗、癌癥治療和酶設(shè)計等諸多領(lǐng)域取得了突破。而發(fā)布于2018年的AlphaFold,論文引用量直接超過了20000次,還被授予2023年生命科學突破獎。
而AlphaFold 3的誕生,則讓生物分子領(lǐng)域的研究拓展到了蛋白質(zhì)之外。
生物可再生材料、更耐用作物的培養(yǎng)、藥物設(shè)計和基因組學研究等等,可能將很快迎來顛覆性變革。
AlphaFold 3一夜預測地球所有生物分子,谷歌DeepMind顛覆生物學登Nature頭版!© 由 新智元 提供
7PNM - 一種普通感冒病毒的突起蛋白(冠狀病毒OC43):隨著病毒蛋白(藍色部分)與抗體(綠色)和單糖(黃色)相互作用AlphaFold 3對7PNM的預測結(jié)果,與真實結(jié)構(gòu)(灰色)高度吻合。如果進一步了解這類免疫系統(tǒng)過程,我們就能更好地理解COVID-19在內(nèi)的冠狀病毒,改進治療方法
輸入一系列分子的信息,AlphaFold 3就能生成它們的3D結(jié)構(gòu),展示這些分子如何緊密配合。
厲害的是,它不僅能模擬蛋白質(zhì)、DNA和RNA這樣的大型生物分子,還能處理小分子如配體——許多藥物都屬于這一類。
配體與DNA結(jié)合的示例
甚至,AlphaFold 3還能模擬這些分子的化學修飾,這些修飾是細胞健康運作的關(guān)鍵,如果失調(diào)就可能引發(fā)疾病。
AI革命性架構(gòu)——擴散模型
正如之前所述,AlphaFold 3之所以如此強大,正是因為它的新一代架構(gòu)和訓練方式,能夠覆蓋所有生命分子。
也就是,顛覆整個AI世界的「擴散模型」,已經(jīng)用在了AlphaFold 3的訓練中。
模型的核心,就是改進后的Evoformer模塊,這是一種深度學習架構(gòu),也正是是AlphaFold 2卓越性能的基石。
處理輸入數(shù)據(jù)后,AlphaFold 3就可以利用「擴散網(wǎng)絡(luò)」來構(gòu)建預測結(jié)果,跟AI圖像生成中使用的網(wǎng)絡(luò)類似。
擴散過程從一個原子云開始,經(jīng)過多個步驟,最終收斂于最精確的分子結(jié)構(gòu)。
對于分子相互作用的預測,AlphaFold 3的精度已經(jīng)超越了所有現(xiàn)有技術(shù)!
作為一個全面計算整個分子復合體的單一模型,它獨特地能整合科學洞見。
藥物設(shè)計,被徹底顛覆
AlphaFold 3的這種強大功能,直接讓我們的藥物設(shè)計走向了新的天地!
這是因為,配體和抗體這些常用于藥物的分子,現(xiàn)在都可以通過AlphaFold 3來預測了。
如下三個例子中,展示了AF3如何將許多蛋白質(zhì)與各自的配體折疊在一起,并闡釋了其作用的機制。
首先展示的是,具有獨特折疊結(jié)構(gòu)的蛋白質(zhì)。
下面是,AlphaFold 3正確預測了一種新型抑制劑的變構(gòu)結(jié)合模式(PDB ID 7QIE)。
AF3還正確預測了PORCN與LGK974和WNT3A肽的復合物,為臨床階段分子的抑制功能提供了結(jié)構(gòu)依據(jù)(PDB ID 7URD)。
在預測藥物相互作用上,AlphaFold 3取得了空前的準確度,無論是蛋白質(zhì)與配體的結(jié)合,還是抗體與其目標蛋白的結(jié)合。
在PoseBusters基準測試中,無需任何結(jié)構(gòu)信息輸入,AlphaFold 3的準確性就比傳統(tǒng)SOTA提高了50%。
由此,它也成為生物分子結(jié)構(gòu)預測領(lǐng)域中,首個超越物理基礎(chǔ)工具的AI系統(tǒng)!
如今我們能夠預測抗體和蛋白質(zhì)的結(jié)合,那就可以理解人類免疫反應的關(guān)鍵,以及新抗體的設(shè)計。
從此,我們藥物設(shè)計的成功率會大大提高,還能夠探索新的疾病靶點,從前針對現(xiàn)有靶點難以達到的創(chuàng)新方法,現(xiàn)在也能在AlphaFold 3的幫助下開發(fā)出來。
AlphaFold Server:與全世界共享的免費工具
此外,谷歌DeepMind團隊也會負責任地與世界共享AlphaFold 3的力量。
谷歌DeepMind會推出全球最準確的工具AlphaFold Server,用于預測蛋白質(zhì)如何在細胞內(nèi)與其他分子相互作用。
這是一個免費平臺,允許全球科學家進行非商業(yè)性研究使用,包含免費的2億蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫。
AlphaFold 3一夜預測地球所有生物分子,谷歌DeepMind顛覆生物學登Nature頭版!© 由 新智元 提供
只要幾次點擊,生物學家就可以利用AlphaFold 3模擬由蛋白質(zhì)、DNA、RNA及各種配體、離子和化學修飾組成的結(jié)構(gòu)了!
從此,科學家在實驗中的研究假設(shè),就可以由AlphaFold Server驗證了。
這個平臺,可謂意義重大。
實驗性的蛋白質(zhì)結(jié)構(gòu)預測,原本需要花費讀個博士學位的時間,以及數(shù)十萬美元的費用。而按照當前實驗結(jié)構(gòu)生物學的發(fā)展速度,這本需要數(shù)億researcher-year的工作。
有了AlphaFold 3,從此生物世界可以以高清晰度呈現(xiàn)。
科學家能夠全面觀察細胞系統(tǒng)的復雜性,包括結(jié)構(gòu)、相互作用和修飾,藥物作用、激素生成和DNA修復如何影響生物功能,從此都將被揭示。
AlphaFold 3一夜預測地球所有生物分子,谷歌DeepMind顛覆生物學登Nature頭版!© 由 新智元 提供
7BBV - 酶:AlphaFold 3對一個包含酶蛋白(藍色)、離子(黃色球體)和簡單糖(黃色)的分子復合體的預測,以及其真實結(jié)構(gòu)(灰色)。這種酶源自一種對多種植物有害的土傳真菌(Verticillium dahliae)。深入了解這種酶與植物細胞的相互作用有助于研究人員培育出更健康、更抗逆的作物
訪問受限,畢竟還要商業(yè)利益
不過,AlphaFold 3的使用上也會受到很多限制。
與RoseTTAFold和AlphaFold 2不同,研究者們無法運行自己的AlphaFold 3版本,也無法公開AlphaFold3的底層代碼,或模型訓練后獲得的其他信息。
他們能做的,就是使用「AlphaFold 3服務(wù)器」,輸入自己選擇的蛋白質(zhì)序列和一些輔助分子。
而且,對AlphaFold 3服務(wù)器的訪問也是受限的。目前每天研究者只能進行10次預測,且無法獲取與潛在藥物結(jié)合的蛋白質(zhì)結(jié)構(gòu)。
但科學家Uhlmann仍然對此表示滿意,在他看來,這個服務(wù)器比AlphaFold 2版本更簡潔——
只要上傳數(shù)據(jù),10分鐘后就能得到結(jié)構(gòu)。對大多數(shù)科學家而言,這個服務(wù)器將大大簡化他們的工作。
之所以做此限制,是因為谷歌DeepMind也是要盈利的。比如,它的子公司Isomorphic Labs已經(jīng)開始用AlphaFold 3來開發(fā)藥物了。
DeepMind的AI科學負責人及該研究的合著者Pushmeet Kohli表示,他們希望AlphaFold 3既能對科學家產(chǎn)生影響,又能在保護Isomorphic在制藥方面的商業(yè)利益上找到平衡。
也因此,加州大學舊金山分校的藥物化學家Brian Shoichet認為AlphaFold 3不會像AlphaFold 2那樣產(chǎn)生廣泛影響,因為它限制了與潛在藥物的蛋白質(zhì)互動建模。
而MIT的進化生物學家Sergey Ovchinnikov則雄心勃勃地表示,根據(jù)Nature提供的詳盡信息,在年底之前,估計就會有團隊開發(fā)出開源解決方案了。
全新的架構(gòu)
根據(jù)論文的介紹,AF3的整體架構(gòu)(圖1d)在很大程度上繼承了AlphaFold 2的設(shè)計。
首先通過一個龐大的主干來處理化學復合物的成對表征,隨后通過一個結(jié)構(gòu)模塊將這些表示轉(zhuǎn)換為具體的原子位置。
不過,AF3在每個關(guān)鍵組件上都進行了重大調(diào)整。
與AlphaFold 2中的原始Evoformer相比,處理塊的數(shù)量減少到4個,MSA表征的處理采用了成本較低的成對加權(quán)平均法,并且后續(xù)步驟僅使用成對表征。
新的「Pairformer」(圖2a)取代了AlphaFold 2的「Evoformer」,成為主要的處理模塊——只處理成對和單一表征,不再保留MSA表征,所有信息都通過成對表征進行傳遞。
最終,成對和單一表征連同輸入表示一起傳遞到新的擴散模塊(圖2b),該模塊取代了AlphaFold 2的結(jié)構(gòu)塊。
擴散模塊(Diffusion Module)直接處理原始原子坐標和一種粗略的抽象Token表征,而不采用旋轉(zhuǎn)框架或任何等變處理。
在AlphaFold 2的研究中,團隊發(fā)現(xiàn)簡化結(jié)構(gòu)模塊的復雜性對預測精度的影響較小,而保留主鏈框架和側(cè)鏈扭轉(zhuǎn)表征則大大增加了對一般分子圖的處理復雜度。
為此,團隊采用了一種標準的擴散方法,訓練擴散模型處理「加噪」的原子坐標,并預測其真實坐標。這就要求網(wǎng)絡(luò)在不同的長度尺度上學習蛋白質(zhì)結(jié)構(gòu),小噪聲去噪重點在于理解局部立體化學,而大噪聲去噪則關(guān)注系統(tǒng)的大尺度結(jié)構(gòu)。
在推理階段,會隨機采樣噪聲,并通過反復去噪得到最終結(jié)構(gòu)。
值得注意的是,這種生成式訓練方法會產(chǎn)生多種可能的結(jié)果。這意味著,即使網(wǎng)絡(luò)對某些位置的確定性不高,每個結(jié)果的局部結(jié)構(gòu)(如側(cè)鏈鍵的幾何結(jié)構(gòu))也都會非常清晰。
由此,既可以避免使用基于扭轉(zhuǎn)的殘基參數(shù)化和對結(jié)構(gòu)的違規(guī)損失,同時處理配體的全部復雜性。
與一些近期的研究一致,團隊發(fā)現(xiàn)架構(gòu)中不需要對分子的全局旋轉(zhuǎn)和平移進行不變性或等變性處理,因此省略了這些設(shè)計,并簡化了機器學習架構(gòu)。
不過,生成式擴散方法很容易產(chǎn)生「幻覺」——即ACCELERATED ARTICLE PREVIEW模型可能在結(jié)構(gòu)不明顯的區(qū)域創(chuàng)造出看似合理的結(jié)構(gòu)。
為了抑制這種現(xiàn)象,團隊采用了一種創(chuàng)新的交叉蒸餾(cross-distillation)方法。
通過在預訓練數(shù)據(jù)集中加入AlphaFold-Multimer v2.3預測的結(jié)構(gòu),使AlphaFold 3學會了模仿「用長的擴展環(huán)路來表示無結(jié)構(gòu)區(qū)域」這種行為,進而極大地減少了AF3的幻覺行為。
由于擴散訓練只涉及單步擴散而非完整的結(jié)構(gòu)生成(圖2c),因此團隊開發(fā)了一種擴散「展開」過程,用于訓練期間生成完整的結(jié)構(gòu)預測。
接著,利用這個預測結(jié)構(gòu)來調(diào)整對稱的真實鏈和配體的位置,并計算性能指標,以此訓練置信度組件。
如圖2d所示,在初始訓練階段,模型很快就能預測出局部結(jié)構(gòu)(所有內(nèi)鏈指標迅速提升,在前20,000次訓練步驟中就達到了最大性能的97%)。
然而,模型在學習整體結(jié)構(gòu)方面需要更長的時間(界面指標上升較慢,蛋白質(zhì)-蛋白質(zhì)界面LDDT在60,000步之后才達到97%的標準)。
在AF3的開發(fā)過程中,團隊發(fā)現(xiàn)某些模型功能很早就達到了頂峰并開始下降,這很可能是因為對這些功能的訓練樣本數(shù)量有限導致了過擬合,而其他功能則仍然訓練不足。
為此,團隊調(diào)整了相應訓練集的抽樣概率,并采用所有上述指標及一些額外指標的加權(quán)平均進行早期停止,來選擇最佳模型檢查點。
在微調(diào)階段,團隊通過使用更大的裁剪尺寸顯著提升了模型在所有指標上的表現(xiàn),特別是在蛋白質(zhì)-蛋白質(zhì)界面上的表現(xiàn)。
網(wǎng)友:AF3將摘下生物學「圣杯」
AlphaFold 3誕生,意味著什么?
「我們即將在未來幾年內(nèi),對所有疾病了如指掌。我們正站在未來十年可能治愈所有疾病的邊緣」。
還有網(wǎng)友表示,AI即將徹底改變醫(yī)學。我們需要用它來提高可用性、改善療效,降低看病成本。
英偉達高級科學家Jim Fan稱贊道,「AlphaFold 3是生物AI取得最大突破的最新迭代版本。不同以往,AlphaFold 3使用了『Diffusion』來渲染分子結(jié)構(gòu)。它從一團模糊的原子云開始,然后通過去噪逐漸將分子實體化」。
我們生活在這樣一個時代,Llama和Sora等模型的發(fā)展可以為生命科學研究提供啟發(fā)并加速進程。我發(fā)現(xiàn)這種通用性水平實在是難以置信。同樣基于Transformer+Diffusion架構(gòu)的模型,不僅可以生成精美的像素圖像,還能想象出蛋白質(zhì)分子,只要將數(shù)據(jù)適當轉(zhuǎn)換為浮點數(shù)序列即可。
我們目前還沒有實現(xiàn)單一的AGI模型,但我們已經(jīng)成功構(gòu)建了一系列通用的AI「配方」,可以跨領(lǐng)域遷移訓練、數(shù)據(jù)和神經(jīng)網(wǎng)絡(luò)架構(gòu)。理論上這是不可能的,但它確實奏效了!
還有網(wǎng)友發(fā)現(xiàn),Nature論文中多次提到了「diffusion」。
從AF3身上,再次讓許多人見識到了「擴散模型」的強大威力。
就連專業(yè)領(lǐng)域的醫(yī)學科學家,完全被AF3的能力震驚到了,一句話用了4個驚嘆體。
現(xiàn)在,這就是生物學的「圣杯」!AlphaFold 3不僅將徹底改變我們對生物系統(tǒng)的認識,還將以前所未有的水平上確定新的、特異的化學或生物藥物!我無法用言語來形容這是一個多么重大的進步!真是嘆為觀止!
等不到GPT-5的網(wǎng)友,瞬間覺得GPT-5都不香了。
還有人暗示,如果谷歌能將代碼開源,或許我們早已到達了AGI。
參考資料:
https://blog.google/technology/ai/google-deepmind-isomorphic-alphafold-3-ai-model/
https://www.quantamagazine.org/new-ai-tools-predict-how-lifes-building-blocks-assemble-20240508/