科技日報記者 劉艷
百度研究院在“2022科技趨勢預(yù)測”中指出,基于AI的生物計算仍將高速發(fā)展,基礎(chǔ)研究和應(yīng)用場景協(xié)同創(chuàng)新將實現(xiàn)新突破。這一預(yù)測首先由百度自己添上了例證。
國際頂級學(xué)術(shù)期刊《自然》(Nature)子刊《自然機器智能》(Nature Machine Intelligence)日前在線發(fā)表的百度生物計算領(lǐng)域最新研究成果,提出了“基于空間結(jié)構(gòu)的化合物表征學(xué)習(xí)方法”,即“幾何構(gòu)象增強AI算法”(Geometry Enhanced Molecular Representation Learning,GEM模型),揭示了一種基于三維空間結(jié)構(gòu)信息的化合物建模方法,及在藥物研發(fā)中的應(yīng)用。
在該項研究中,百度螺旋槳PaddleHelix團隊首次將化合物的幾何結(jié)構(gòu)信息引入自監(jiān)督學(xué)習(xí)和分子表示模型,并在下游十多項的屬性預(yù)測任務(wù)中取得 SOTA,成為百度對外公開的AI賦能藥物研發(fā)的又一項重磅成果。
作為藥物研發(fā)的關(guān)鍵一環(huán),候選化合物的性質(zhì)預(yù)測就像為臨床試驗“排雷”,即提前篩選掉毒副作用高、人體吸收代謝不好等具有不良特性的化合物。
這項任務(wù)以前只能通過傳統(tǒng)仿真實驗進行,成本高耗時長。也有研究人員引入深度學(xué)習(xí)技術(shù),但大多基于序列或2D圖結(jié)構(gòu)建模,缺乏化合物三維空間結(jié)構(gòu)信息的利用,導(dǎo)致化合物性質(zhì)預(yù)測結(jié)果的偏差,亟須引入化合物的三維空間信息。
百度的重大突破是,在全球范圍內(nèi)開創(chuàng)性地將化合物性質(zhì)預(yù)測從“2D建?!蓖七M到“3D建?!?。同時,引入預(yù)訓(xùn)練技術(shù),利用大量無標注的化合物數(shù)據(jù),通過自監(jiān)督學(xué)習(xí),構(gòu)建GEM模型的底層能力,有望成為小分子藥物研發(fā)領(lǐng)域的模型底座,解決小分子藥物活性預(yù)測,成藥性預(yù)測,藥物設(shè)計等核心問題,加速藥物,特別是全新藥物的發(fā)現(xiàn)過程。
從實驗效果看,百度GEM模型已在14個國際學(xué)術(shù)界公認的應(yīng)用任務(wù)數(shù)據(jù)集上達到業(yè)界最佳。這些數(shù)據(jù)集包括:抑制HIV艾滋病病毒復(fù)制能力的數(shù)據(jù)集、小分子的生物活性數(shù)據(jù)集、血腦屏障滲透數(shù)據(jù)集等。
在應(yīng)用價值層面,百度GEM模型可高效學(xué)習(xí)化合物的空間結(jié)構(gòu)知識,并自主推斷出空間結(jié)構(gòu)信息,從而準確預(yù)測候選化合物的吸收、代謝、毒性等特性,幫助藥物研發(fā)更快更準地完成早期篩選,目前已經(jīng)在多個合作伙伴的研發(fā)管線中實現(xiàn)商業(yè)化落地,有望通過AI技術(shù)探索雙靶點抑制劑新的研發(fā)范式,為癌癥病人和自身免疫性疾病病人提供更有效的治療藥物。
此外,該方法還有助于高效測量藥物-靶標相互作用,可加速新藥研發(fā),為老藥發(fā)掘新用途,并探索多種藥物聯(lián)合使用,進一步增強療效,降低抗藥性和毒副作用,甚至療治新病癥。
百度這項生物學(xué)與計算機科學(xué)的跨學(xué)科創(chuàng)新,為化合物成藥性預(yù)測、小分子藥物篩選、藥物聯(lián)用等應(yīng)用研究帶來諸多裨益,未來更有望擴展到蛋白領(lǐng)域,構(gòu)建基于蛋白的表征模型,服務(wù)于大分子的藥物研發(fā)。
GEM模型已基于百度飛槳生物計算平臺螺旋槳PaddleHelix在GitHub開源。
(圖片提供:百度)