如果您對生物學的生物信息學和數據分析,您會立即發現這篇文章很有啟發性。 對於AI科學家而言,
更廣泛地,他們將在這裡找到通過將其推向幻覺,然後找到克服這一限制的方法來探測LLM的方法。>
簡介
>
這是我所有的同行評審和有關蛋白質建模,CASP和Alphafold 2的博客文章 “化學直覺的火花” - 和總限制!
在PDB中有效瀏覽和搜索條目對於現代生物學工作至關重要。但是,儘管搜索引擎非常完整,但很難提出一些問題。但是事實證明,正如我在這裡發現和報告的那樣,我們現在可以用自然語言請求詢問PDB,因為正如您在此標題的文章中看到的那樣,GPT-4O知道蛋白質數據庫!進入 從我出於好奇心進行的一些測試中,我發現OpenAI顯然包括PDB內容(或包含PDB信息的內容,我將在稍後進行討論)在培訓其一些大語言模型(LLMS)中) ,至少在GPT-4O的培訓中。找到了這個問題後,我開始使用此遊戲,然後使用Alphafold 3進行結構確定測試,從我聊天中提出了一些想法 我根據結果所設想的是,隨著人工智能的進步,尤其是在自然語言處理模型中,研究人員現在可以更輕鬆地搜索,從而利用PDB的相關結構信息。正如您在我提出的許多示例中所看到的那樣,用自然語言請求查詢PDB的能力非常有力,可以深入探索生物分子結構,複合物,複合物和組件,包括折疊蛋白,還包括核酸,還包括核酸蛋白質和小分子,都以相關PDB條目的形式直接連接到實驗驗證的結構數據。
更具體地說,通過許多示例,我將演示GPT-4O如何用來確定與復雜搜索術語相關的相關PDB條目,如果您只需在PDB站點上可用的常規搜索框中輸入它,該詞可能無法正常工作。我的例子涵蓋了與各種激酶靶標,與結合伴侶互動的內在無序區域(IDRS)結合的生物學和藥物的一些相關的相互作用,例如Glivec(imatinib,一種抗癌藥物),以及影響相互作用的經濟化伴侶(PTMS)。在某些示例中,我進一步探討了使用Alphafold 3在空間中建模這些相互作用的潛力,從而有效地提供了基於LLM的PDB檢索和3D可視化之間的橋樑。
在接下來的內容中,我的調查表達了對GPT-4O的問題,然後是其原始答案,在某些情況下,我準備在某些示例中進行了一些下游分析。探索1:您知道與激酶結合的Glivec(imatinib)的pdb代碼嗎?
>>我問chatgpt-4o:“您知道glivec(imatinib)綁定到激酶的pdb代碼嗎?”和…
chatgpt說: 是的,Glivec(伊馬替尼)是一種眾所周知的酪氨酸激酶抑製劑,PDB中的幾種結構顯示其與靶激酶結合。以下是一些關鍵示例:
> chatgpt-4o然後繼續提供更多示例:abl激酶綁定到imatinib
- > pdb代碼:
1iep 描述:這是顯示伊馬替尼與ABL激酶的最早結構之一,它是慢性粒細胞性白血病(CML)中的靶標。伊馬替尼與ABL的不活躍構象結合,穩定它並防止激酶激活。
>這是我的支票 - 我為Chatgpt-4O提供的所有示例做到了這一點,但我只顯示一些示例。您在這裡看到PDB 1IEP是一個與STI-571複合的激酶結構域,它與PDB配體規範中的imatinib相對應:>
>
![]()
> c-kit激酶與伊馬替尼結合
> pdb代碼:
描述:1T46 伊馬替尼還與C-KIT受體酪氨酸激酶結合,該激酶在某些癌症中過度活躍,包括胃腸道基質腫瘤(GIST)。該結構顯示伊馬替尼與C-KIT的ATP結合位點結合,抑制其激酶活性。 > pDGFR激酶與伊馬替尼結合
pdb代碼:
1xbb 描述:
- 伊馬替尼與血小板衍生的生長因子受體(PDGFR)激酶結合,這是另一種與各種癌症有關的激酶。該結構表明了伊馬替尼如何通過與其無活性構象結合來抑制PDGFR。
與伊馬替尼結合的ABL激酶突變體(T315i)
> pdb代碼:3GVU > 描述:
該結構顯示了具有T315i突變的ABL激酶,在某些癌症患者中與對伊馬替尼的抗性有關。該突變改變了結合位點,降低了伊馬替尼的有效性,並突出了耐藥性的機制。 這些結構說明了伊馬替尼如何選擇性地穩定諸如ABL,C-KIT和PDGFR的激酶的無活性形式,有助於控制各種癌症中異常細胞的增殖。 探索2:您知道與另一種蛋白質的本質上無序區域的某個例子嗎? 這次我問:“您知道PDB代碼的某個固有無序區域與另一種蛋白質結合的示例嗎?”。它去了:
chatgpt說:
是的,在PDB中有幾個特徵良好的結構,其中一種蛋白質的本質上無序區域(IDR)與另一種蛋白質結合。這些IDR通常在結合後採用定義的結構,這對於其調節或信號傳導函數至關重要。以下是一些眾所周知的例子:
p53的跨激活結構域結合到MDM2 pdb代碼: 1ycr 描述:
與MDM2癌蛋白結合的p53的N末端反式反式激活結構域結合。這種相互作用調節p53的穩定性和功能。
- > e1a從腺病毒綁定到rb
pdb代碼:
1lxe 描述:腺病毒的本質上無序的E1A蛋白與視網膜細胞瘤(RB)蛋白結合,抑制了RB在細胞週期控制中的功能。 與CBP
的TAZ1結合的c-myc反式激活域
> pdb代碼:1SB0 描述:
當C-Myc的無序反式激活結構域與轉錄共同活化器CBP的TAZ1結構結合時,會採用α-螺旋結構。> p27KIP1與細胞週期蛋白A/CDK2 結合
- pdb代碼:
1jsu 描述:
固有無序的p27kip1通過圍繞細胞週期蛋白和CDK亞基結合併抑制細胞週期蛋白A/CDK2複合物。這種相互作用在細胞週期調節中起關鍵作用。 與polycomb 染色體結合的本質上無序區域 > pdb代碼:
2l3j 描述:
與CBP- > ASH1的本質上無序區域與轉錄沉默的調節劑PolyComb(PC)的染色體域相互作用,在結合時採用結構化形式。
>的Kix域結合的CREB的PKID
pdb代碼:1kdx 描述:
與DNACREB的磷酸化激酶誘導結構域(PKID)與本質上無序無序結合,與CBP的KIX結構域結合。磷酸化誘導PKID中的α-螺旋形成,穩定相互作用。 結合的轉錄因子
- >>
PDB代碼:
描述:ETS1的無序調節區域在結合DNA時被部分排序,這是一個無序區域的例子,該區域與非蛋白質伴侶相互作用時採用結構。 與VHL 結合的HIF-1α氧依賴性降解結構域
PDB代碼:
描述:1LQB 固有無序的HIF-1α的氧依賴性降解結構域與von Hippel-Lindau(VHL)蛋白結合。這種相互作用標誌著在常氧條件下降解的HIF-1α。 與微管結合的
tau蛋白 > pdb代碼:
描述:5syf tau是一種與微管相互作用的本質上無序的蛋白質。結合後,tau的特定區域採用結構化構象,有助於穩定微管組裝。 與DNA或組蛋白伴侶結合的組蛋白H1無序的尾巴
- >
> pdb代碼:
描述:2lxd 組蛋白H1的無序C末端尾巴結合了DNA和組蛋白伴侶,在結合後採用了部分結構。這種相互作用在染色質壓實中起作用。 > 這些結構展示了許多IDR的“折疊結合”特性,在其存在其結合伴侶的情況下,它們採用了特定的二級或三級結構,通常會促進關鍵細胞過程,例如信號,調節和基因表達。
>示例:PDB 1YCR,包括使用完整蛋白質的Alphafold 3進行反向預測然後,我設置自己來看看這些示例中的一些。 PDB 1YCR(Chatgpt-4O此處提供的第一個答案)是p53的結構,p53是一種與癌症有關的蛋白質,其中包含幾種與其他蛋白質結合的無序殘基。在此PDB文件中,它被發現與MDM2互動。您可以在圖的左上角的實驗結構中看到這一清晰,其中MDM2的短段作為螺旋結合到p53上。而且,您還可以在Alphafold 3的全面預測中看到這一點,這暗示了一些其他相互作用。
- 探索3:提出與涉及翻譯後修飾的其他人結合的蛋白質的PDB條目?
chatgpt說:
>當然!以下是幾個PDB條目,其中包含蛋白質,這些蛋白質與翻譯後修飾(PTMS)介導的相互作用有關。這些結構提供了有關PTM等PTM等磷酸化,甲基化和乙酰化如何影響蛋白質 - 蛋白質相互作用的見解。
磷酸化識別
- 與磷酸化肽結合的14–3–3蛋白
PDB代碼:1qja
> 描述:該結構顯示與磷酸化肽結合的14–3–3蛋白,說明了14–3–3如何識別和結合磷酸鹼殘基。 與磷酸化肽結合的
BRCT結構域pdb代碼:
1T29>
描述:此結構具有BRCA1 BRCT結構域與BACH1結合的BRCA1 BRCT結構域結合,表明BRCT域如何識別磷酸化。 >泛素識別
> p62的泛素結合域與泛素結合
pdb代碼:3B0F
>- >
描述:>該結構描繪了與泛素結合的p62的UBA(泛素相關)結構域,突出了p62如何識別和結合自噬的多泛素化底物。
>甲基化識別HP1的染色域 結合到甲基化組蛋白
> pdb代碼:
3c1a描述:
HP1染色體域與三甲基化的組蛋白H3K9肽相互作用,展示瞭如何識別組蛋白上的甲基化並有助於轉錄調節的甲基化。 乙酰化識別
乙酰化組蛋白H4結合到溴結構域>
> pdb代碼:
3MXF >
- 描述:
>。該結構呈現出與乙酰化組蛋白H4尾巴結合的BET蛋白BRD4的溴結構域,說明瞭如何識別組蛋白的乙酰化並介導染色質的相互作用。 cullin-ring e3連接酶結合到nedd8 > > pdb代碼:
2zvj > 描述:
該結構顯示了Cullin-Ring E3連接酶與NEDD8修飾之間的相互作用,突出了Neddylation在泛素蛋白蛋白蛋白酶體系統中的作用。P27KIP1和細胞週期蛋白-CDK結合
- 的磷酸化
>cdk2-cyclin A複合物與磷酸化的p27Kip1
結合PDB代碼:
1JSU >描述:
糖基化該結構顯示了與p27Kip1的磷酸化形式相互作用的細胞週期蛋白A/CDK2複合物,證明了磷酸化如何調節細胞週期蛋白依賴性激酶的結合和抑制。
與甘露糖基化糖蛋白結合的凝集蛋白A的凝集素結構域 PDB代碼:
3fqz> >描述:該結構具有濃蛋白凝集素A,植物凝集素,與甘露糖基化的糖蛋白結合,說明了糖基化如何介導蛋白質蛋白質相互作用。
ETS1轉錄因子的磷酸化> ETS1綁定到DNA
> pdb代碼:
- >
> 描述:
>在結合DNA時,ETS1的無序調節區域被部分排序,展示了磷酸化如何影響其與目標序列相互作用的能力。 p53的乙酰化 與MDM2 pdb代碼:
1ycr
描述:
> sumoylation乙酰化p53和MDM2之間的相互作用說明了乙酰化如何影響p53的穩定性和調節,p53是一種嚴重的腫瘤抑製劑。 。 Sumo-1結合到相互作用的主題
PDB代碼:
4C0N >
- >
描述:該結構顯示了一個蛋白質,其中包含與SUMO-1結合的相互作用基序,突出了Sumoylation如何調節各種蛋白質相互作用。 >示例:PDB 1QJA,包括使用Alphafold 3的後預測(可以治療磷酸化的殘基!) pdb 1qja(Chatgpt-4O提供的第一個答案)是該蛋白質的結構,稱為14–3–3與磷酸化的肽結合(p原子被4 O原子包圍)。在下圖中,3D結構對應於蛋白質和磷酸化肽之間觀察到的複合物(左:全視圖,右:放大磷酸鹽)。您可以看到磷酸鹽組如何建立多個觸點(虛線)。下面的綠色2D圖是Alphafold 3的PAE圖,在存在磷酸鹽組時(右)顯示了與蛋白質相互作用的肽相互作用的更好的統計(綠色)。
> GPT-4O在培訓時真的學會了PDB嗎? > >由於Openai通過電子郵件詢問時沒有回答此問題,所以我只是問Chatgpt-4O本身。答案是……有點,但不是很!
我從chatgpt獲得的是,它不是明確培訓了使用PDB條目(這真是太好了,因為它們包含紙張摘要和每個PDB條目的其他數據)。但是,Chatgpt解釋說,其培訓材料包括提到這些PDB條目的論文,預印本,摘要和教育文件;這就是它必須了解大量PDB條目的方式。
> PDB條目的幻覺,也是一種克服它們的方法
>如果以上是正確的,也就是說,如果沒有使用PDB本身對GPT-4O進行培訓,而是使用涉及某些PDB結構的論文和其他文檔,那麼它可能完全不知道許多結構,尤其是那些與任何紙張無關的人。遵循這個想法,我將自己詢問Chatgpt-4O,並試圖揭露它。
>>我花了一些時間來破解它,但最終我設法了。在我的第一個問題上,例如“您知道PDB ID 1CI0嗎?” (PDB顯示沒有與任何論文相關的),我自信地得到了一個響應,但錯誤地解釋了該條款“描述了來自的細胞色素C553”。但是,PDB的條目解釋說,這是另一種蛋白質,它既不是細胞色素c,也不屬於> desulfovibrio vulgaris。 >現在很糟糕,非常糟糕,就像所有幻覺一樣。但是令人鼓舞的是,如果我要求chatgpt-4o進行在線搜索(請注意,PDB完全開放),那麼它會蒸餾出正確的信息:
PDB ID> 1CI0
> saccharomyces cerevisiae是指從 (Brewer's Yeast)中的吡ido醇-5'-磷酸(PNP)氧化酶 >。該酶被歸類為氧化還原酶,並在維生素B6代謝途徑中起關鍵作用。它促進了吡ido醇5'-磷酸到吡ido醇5'-磷酸的轉化,這是一種活性形式的維生素B6。 >使用X射線衍射以2.7Å的分辨率確定結構,生物組裝是同型二聚體。實驗是使用源自大腸桿菌中表達的重組蛋白的晶體進行的。該結構包括兩個蛋白質鏈,並與輔因子黃素單核苷酸(FMN)結合,這對於其酶活性至關重要。 Shi等人在1999年沈積了該條目。並且經常用於研究維生素B6生物合成機制以及生物技術或醫學中的潛在應用。 …它本質上完全反映了PDB上此條目可用的所有信息,並且實際上比它更好,因為它拼寫了縮寫縮寫詞和諸如“ pnp”之類的簡短名稱,並清除了所有數據- 只需與PDB進行比較條目:
www.lucianoabriata.com我寫了有關我的廣泛利益領域的所有內容:自然,科學,技術,編程等。訂閱通過電子郵件訂閱我的新故事。要諮詢有關小工作的信息,請在此處查看我的服務頁面。您可以在這裡與我聯繫。你可以在這裡給我小費。![]()
那麼?有用是否有用?
>我對這項最新實驗的結論是,儘管非常容易幻覺,但通過迫使chatgpt進行對面搜索的交叉檢查,但在線參賽作品可能會完全克服其幻覺問題。
>喜歡使用所有這些AI工具,我們需要謹慎,但是搜索折疊方法可能是可靠的 - 但是在得出非常具體的結論之前,您可以自己仔細檢查LLM的輸出。
結論和前景通過此探索,我的目的是說明實驗性結構生物學,使用Alphafold 3和GPT-4O等工具的分子建模如何融合,使研究人員能夠以openai的方式搜索和分析分子結構在其培訓數據集中包括有關PDB的內容。從我們在上一節中看到的幻覺問題中,我建議在LLM培訓時明確包括PDB條目的信息,這可能會使所有這些都提高到一個新的水平,更準確,更準確地工作。然而,通過上面測試的搜索方法,人們可能會感到安全,因為LLM不會在虛假信息中偷偷摸摸。 我認為,通過利用這些合併的資源,科學家可以更快,更熟悉與給定主題有關的一系列結構。進入生物學的新特定子域時,可能最有用。
>我還認為,通過調查LLM和Alphafold 3(或現在正在出現的類似模型)如何不僅可以導航,還可以通過新的方式了解生物分子及其複合物,從而為更多的研究奠定了基礎。也許也可以創建受益於LLM的PDB知識的分子圖形和建模工具,也可以創建通過自然命令對生物分子結構進行複雜的操作和分析。
>
以上是Epic“ Crossover”在Alphafold 3和GPT-4O之間,對蛋白質數據庫條目的了解的詳細內容。更多資訊請關注PHP中文網其他相關文章!