科技日報記者 劉霞
英國“深度思維”公司今年8月曾宣布,其開發(fā)的人工智能(AI)程序“阿爾法折疊”已預測出約100萬個物種的超過2億種蛋白質(zhì)的結構,涵蓋科學界已編錄的幾乎每一種。現(xiàn)在,元宇宙平臺公司(Meta)研究人員利用人工智能ESMFold預測了來自細菌、病毒和其他尚未被表征微生物的6億多種蛋白質(zhì)的結構。相關研究已經(jīng)提交生物預印本網(wǎng)站biorxiv.org。

ESM宏基因組圖譜數(shù)據(jù)庫包含6.17億種蛋白質(zhì)的結構預測 圖片來源:《自然》網(wǎng)站
在最新研究中,Meta AI蛋白質(zhì)團隊使用“大型語言模型”預測了這些蛋白質(zhì)的結構。要構建能通過幾個字母或單詞預測文本的工具,離不開大型語言模型的基礎。語言模型通常需要大量文本進行訓練,為將其應用于蛋白質(zhì),研究團隊用已知的蛋白質(zhì)序列訓練它們,這些已知蛋白質(zhì)可由20個不同氨基酸組成的鏈來表達,每個氨基酸由一個字母表示。然后,ESMFold學會了用模糊的氨基酸比例“自動完成”蛋白質(zhì)。
團隊負責人亞歷山大·里維斯表示,這些訓練讓ESMFold對包含蛋白質(zhì)形狀信息的蛋白質(zhì)序列有了直觀了解。而且,與“阿爾法折疊”一樣,這一網(wǎng)絡能將這些了解到的信息與已知蛋白質(zhì)結構和序列之間關系的信息結合,生成預測結構。
隨后,他們在一個數(shù)據(jù)庫上運用這一模型,該數(shù)據(jù)庫由來自土壤、海水、人類腸道、皮膚和其他微生物棲息地的“宏基因組”DNA組成,其中絕大多數(shù)DNA條目編碼潛在蛋白質(zhì),來自從未被培養(yǎng)過也不為人所知的生物體。總體而言,ESMFold預測了超6.17億種蛋白質(zhì)的結構,且只花了兩周時間。而“阿爾法折疊”預測一種結構可能需要幾分鐘。
團隊指出,ESMFold雖然不像“阿爾法折疊”那么準確,但在預測結構方面的速度要快60倍,這意味著他們可將結構預測擴展到更大的數(shù)據(jù)庫。
里維斯表示:“這些來自土壤、海水和人體的微生物分子是我們了解最少的結構,最新研究有助于我們更進一步洞悉生物學。”
來源:中國戰(zhàn)略新興產(chǎn)業(yè)
IT時代網(wǎng)(關注微信公眾號ITtime2000,定時推送,互動有福利驚喜)所有原創(chuàng)文章版權所有,未經(jīng)授權,轉(zhuǎn)載必究。
創(chuàng)客100創(chuàng)投基金成立于2015年,直通硅谷,專注于TMT領域早期項目投資。LP均來自政府、互聯(lián)網(wǎng)IT、傳媒知名企業(yè)和個人。創(chuàng)客100創(chuàng)投基金對IT、通信、互聯(lián)網(wǎng)、IP等有著自己獨特眼光和豐富的資源。決策快、投資快是創(chuàng)客100基金最顯著的特點。
小何
小何
小何
來自: 【人物】滴滴創(chuàng)始人程維回顧與Uber競爭:中國互聯(lián)網(wǎng)從來沒有輸過--IT時代網(wǎng)
小何
來自: 少年頭條對壘中年騰訊:解局兩代互聯(lián)網(wǎng)公司商業(yè)之戰(zhàn)--IT時代網(wǎng)