>기술 주변기기 >일체 포함 >서사시 “ 크로스 오버 ” Alphafold 3과 GPT-4O의 단백질 데이터 은행 항목에 대한 지식 사이

서사시 “ 크로스 오버 ” Alphafold 3과 GPT-4O의 단백질 데이터 은행 항목에 대한 지식 사이

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB원래의
2025-02-25 18:16:09289검색
생물학적 정보와 생물학에 대한 데이터 분석에 빠지면이 기사가 바로 영감을 줄 것입니다.

. AI 과학자들에게 더 광범위하게, 그들은 LLM을 환각으로 밀어서이 한계를 극복 할 수있는 방법을 찾는 방법을 찾을 것입니다.

소개 PDB (Protein Data Bank)는 생물학적 거대 분자의 3 차원 구조 데이터에 대한 포괄적 인 저장소 역할을하며, 생물학적 과정의 분자 토대에 대한 귀중한 통찰력을 제공합니다. 그것의 존재는 Alphafold와 같은 AI 모델을 개발할 수 있도록 허용하는 것입니다!

여기에 단백질 모델링, CASP 및 Alphafold 2 에 관한 모든 동료 검토 및 블로그 기사가 있습니다.

"화학 직관의 불꽃" - 및 총 제한!


PDB의 항목을 효율적으로 탐색하고 검색하는 것은 생물학에서 현대적인 작업에 필수적입니다. 그러나 매우 완전한 검색 엔진에도 불구하고 몇 가지 질문은 포즈를 취하기가 어렵습니다. 그러나 여기서 찾은 것처럼 여기에서보고 한 바와 같이, 우리는이 제목의 기사에서 보았 듯이 단백질 데이터 은행을 알고 있기 때문에 이제 자연어 요청과 PDB를 심문 할 수 있습니다!

. 호기심에서 벗어난 일부 테스트에서 OpenAi는 PDB 컨텐츠 (또는 PDB 정보를 포함하는 컨텐츠, 나중에 논의하겠습니다)를 분명히 포함 시켰음을 알았습니다. ), 적어도 GPT-4O의 훈련에서. 이것을 발견 한 후, 나는 이것을 가지고 놀도록 설정 한 다음 alphafold 3을 사용한 구조 결정 테스트와 GPT-4O와의 대화에서 나온 아이디어를 결합했습니다. 내 결과를 바탕으로 내가 상상하는 것은 인공 지능의 발전, 특히 자연 언어 처리 모델의 발전으로, 연구자들은 이제 PDB의 관련 구조 정보를보다 쉽게 ​​검색하고 활용할 수 있다는 것입니다. 자연어 요청으로 PDB를 쿼리하는 능력은 내가 제시하는 많은 예에서 볼 수 있듯이 매우 강력하며, 접힌 단백질뿐만 아니라 핵산을 포함하여 생체 분자 구조, 복합체 및 조립체의 심층적 인 탐색을 허용합니다. 단백질 및 소분자, 모두 관련 PDB 항목의 형태로 실험적으로 검증 된 구조 데이터와 직접적인 링크를 갖는다.더 구체적으로, 많은 예를 통해 GPT-4O가 PDB 사이트에서 사용 가능한 일반 검색 상자에 입력 할 경우 잘 작동하지 않을 수있는 복잡한 검색어와 관련된 관련 PDB 항목을 식별하는 방법을 보여줍니다. 저의 예는 다양한 키나제 표적에 대한 Glivec (Imatinib, 항암제), 본질적으로 무질서한 영역 (IDR)과 관련하여 관련된 상호 작용에 영향을 미치는 상호 작용 (IDRS)과 같은 생물학 및 제약에 대한 매우 관련성이 높은 상호 작용을 다룹니다. 일부 예에서 나는 Alphafold 3을 사용하여 우주에서 이러한 상호 작용을 모델링 할 수있는 잠재력을 더 탐구하여 LLM 기반 PDB 검색과 3D 시각화 사이의 브리지를 효과적으로 제공합니다. 다음에서, 나는 조사를 GPT-4O에 요청한 다음 원시 답변에 대한 질문으로 내 조사를 표현하고 어떤 경우에는 선택한 예제에서 수행 한 일부 다운 스트림 분석을 설명 할 준비를했습니다. <:> 탐사 1 : 키나제에 바운드 Glivec (Imatinib)의 일부 예에 대한 PDB 코드를 알고 있습니까? 나는 ChatGpt-4o에게 "키나제에 바운드 Glivec (Imatinib)의 일부 예에 대한 PDB 코드를 알고 있습니까?" 그리고… <.>

chatgpt는 다음과 같이 말했다 :

예, Glivec (Imatinib)는 잘 알려진 티로신 키나제 억제제이며, PDB의 몇몇 구조는이를 표적 키나제에 결합시킨다. 다음은 몇 가지 주요 예입니다.

abl 키나제 이마티닙 에 결합된다

pdb 코드 : 1ieep 설명 : 이것은 만성 골수성 백혈병 (CML)의 표적 인 ABL 키나제에 결합 된 이마티 닙을 보여주는 가장 초기 구조 중 하나입니다. 이마티닙은 ABL의 비활성 구조에 결합하여 안정화하고 키나제 활성화를 방지합니다. 여기 내 확인이 있습니다-chatgpt-4o가 제공 한 모든 예제에 대해이 작업을 수행했지만 일부 만 보여줍니다. PDB 1IEP는 STI-571과 복합 된 키나제 도메인이며, 이는 PDB의 리간드 사양에서 이마티닙에 해당합니다. Chatgpt-4o는 더 많은 예를 계속해서 계속했습니다 :

C-kit 키나제 Imatinib 에 결합되었습니다

PDB 코드 : 1T46 설명 :
    이 마티 닙은 또한 C-KIT 수용체 티로신 키나제에 결합하며, 이는 위장관 간질 종양 (GIST)을 포함하여 특정 암에서 과도하게 활성입니다. 이 구조는 C-KIT의 ATP- 결합 부위에 결합되어 키나제 활성을 억제하는 이마티닙을 보여줍니다.
  1. pdgfr 키나제 이마티 닙 에 결합 된
PDB 코드 : 1xBB

설명 : 이 마티 닙은 혈소판 유래 성장 인자 수용체 (PDGFR) 키나제에 결합하며, 이는 다양한 암에 관련된 다른 키나제. 이 구조는 Imatinib가 비활성 형태에 결합하여 PDGFR을 억제하는 방법을 보여줍니다.

    abl 키나제 돌연변이 체 (T315i) 이마티닙 에 결합된다
  1. PDB 코드 : 3GVU
  2. 설명 : 이 구조는 일부 암 환자에서 이마티닙에 대한 내성과 관련된 T315i 돌연변이를 갖는 ABL 키나제를 보여줍니다. 이 돌연변이는 결합 부위를 변경하여 이마티닙의 효과를 줄이고 약물 내성의 메커니즘을 강조합니다. 이 구조는 이마티닙이 ABL, C-KIT 및 PDGFR과 같은 비활성 형태의 키나제를 선택적으로 안정화하여 다양한 암에서 비정상적인 세포 증식을 제어하는 ​​방법을 보여줍니다.
.

<:> 탐사 2 : 다른 단백질에 결합 된 본질적으로 무질서한 영역의 일부 예에 대한 PDB 코드를 알고 있습니까? 이번에는 "다른 단백질에 묶인 본질적으로 무질서한 영역의 일부 예에 대한 PDB 코드를 알고 있습니까?" 그리고 그곳은 갔다 : chatgpt는 다음과 같이 말했다 :

예, PDB에는 하나의 단백질의 본질적으로 무질서한 영역 (IDR)이 다른 단백질에 결합하는 몇 가지 잘 특성화 된 구조가 있습니다. 이러한 IDR은 일반적으로 결합시 정의 된 구조를 채택하며, 이는 조절 또는 신호 기능에 중요합니다. 잘 알려진 몇 가지 예는 다음과 같습니다.

p53 트랜스 활성화 도메인 mdm2 에 결합되었습니다 PDB 코드 : 1ycr 설명 : 본질적으로 무질서한 p53의 N- 말단 트랜스 활성화 도메인은 MDM2 종양 단백질에 결합한다. 이 상호 작용은 p53 안정성과 기능을 조절합니다

아데노 바이러스에서 rb

에 바운드 PDB 코드 : 1lxe 설명 :

아데노 바이러스로부터의 본질적으로 무질서한 E1A 단백질은 레티노 아세포종 (RB) 단백질에 결합하여 세포주기 제어에서 RB의 기능을 억제합니다. cbp 의 taz1에 결합 된 ​​c-myc 트랜스 활성화 도메인 PDB 코드 : 1SB0

설명 :

C-MYC의 무질서한 트랜스 활성화 도메인은 전사 공동 활성화 제인 CBP의 TAZ1 도메인에 결합 할 때 알파-실적 구조를 채택합니다.

p27kip1 cyclin a/cdk2 에 바인딩됩니다
  • PDB 코드 : 1JSU
  • 설명 : 본질적으로 무질서한 p27kip1은 사이클린 및 CDK 서브 유닛을 감싸서 사이클린 A/CDK2 복합체에 결합하고 억제합니다. 이 상호 작용은 세포주기 조절에서 중요한 역할을합니다.

    ash1 폴리 콤의 크로 모 도메인에 결합 된 본질적으로 무질서한 영역 PDB 코드 : 2l3j

    설명 :

    ASH1의 본질적으로 무질서한 영역은 전사 침묵의 조절제 인 폴리 콤 (PC)의 크로 모 도메인과 상호 작용하여 결합시 구조적 형태를 채택합니다.

    CBP의 kix 도메인에 결합 된 CREB의 pkid
      PDB 코드 : 1kdx
    1. 설명 : 본질적으로 무질서한 CREB의 인산화 된 키나제-유도 성 도메인 (PKID)은 CBP의 kix 도메인에 결합한다. 인산화는 PKID에서 알파-헬릭스 형성을 유도하여 상호 작용을 안정화시킨다.

      . ets1 전사 인자 DNA 에 결합 된 전사 인자

      pdb 코드 : 2nny
      1. 설명 :
      2. ETS1의 무질서한 조절 영역은 비 단백질 파트너와 상호 작용할 때 구조를 채택하는 무질서한 영역의 예인 결합 DNA에 부분적으로 순서가됩니다.
      .

      HIF-1α 산소-의존적 분해 도메인 VHL 에 결합된다 PDB 코드 : 1lqb

      설명 : 본질적으로 무질서한 HIF-1α의 산소 의존적 분해 도메인은 폰 해마-린다우 (VHL) 단백질에 결합합니다. 이 상호 작용은 정상 조건 하에서 분해를 위해 HIF-1α를 표시한다 미세 소관에 결합 된 타우 단백질

      PDB 코드 : 5Syf
      1. 설명 : 타우는 미세 소관과 상호 작용하는 본질적으로 장애가있는 단백질입니다. 결합시, 타우의 특정 영역은 구조적 형태를 채택하여 미세 소관 조립품을 안정화시키는 데 도움이됩니다.
      2. 히스톤 h1 DNA 또는 히스톤 샤페론에 결합 된 무질서한 꼬리
      pdb 코드 : 2lxd

      설명 : 히스톤 H1의 무질서한 C- 말단 꼬리는 DNA 및 히스톤 샤페론에 결합하여 결합시 부분 구조를 채택합니다. 이 상호 작용은 염색질 압축에서 역할을한다 이 구조는 많은 IDR의 "접이식 결합"특성을 보여 주며, 여기서 구속 파트너의 존재 하에서 특정 2 차 또는 3 차 구조를 채택하며 종종 신호, 조절 및 유전자 발현과 같은 중요한 세포 과정을 용이하게한다. <.> 예 : 전체 단백질을 사용하여 Alphafold 3을 사용한 등 예측을 포함하여 PDB 1YCR 그런 다음이 예 중 일부를 실습으로 보도록했습니다. PDB 1YCR (ChatGpt-4o가 여기에서 제공 한 첫 번째 답변)은 다양한 방식으로 암과 관련된 단백질이며 다른 단백질에 결합하는 여러 장애 잔기를 함유하는 p53의 구조입니다. 여기서이 PDB 파일에서는 MDM2와 상호 작용했습니다. MDM2의 짧은 세그먼트가 나선으로 p53에 바인딩되는 그림의 왼쪽 상단의 실험 구조 에서이 부분이 명확하게 보입니다. 그리고 당신은 또한 전체 복합 단지에 대한 Alphafold 3의 예측에서 이것을 볼 수 있습니다.

      <:> 탐사 3 : 번역 후 변형과 관련된 다른 사람들에게 결합 된 단백질에 대한 PDB 항목을 제안?

      chatgpt는 다음과 같이 말했다 :

      확실히! 다음은 번역 후 변형 (PTM)에 의해 매개되는 상호 작용에 관여하는 단백질을 특징으로하는 몇 가지 PDB 항목입니다. 이들 구조는 인산화, 메틸화 및 아세틸 화과 같은 PTM이 단백질-단백질 상호 작용에 어떻게 영향을 미치는지에 대한 통찰력을 제공한다.

      인산화 인식
        인산화 된 펩티드에 결합 된 14–3–3 단백질 pdb 코드 :
      1. 1qja
      설명 :

      구조는 인산화 된 펩티드에 결합 된 14–3–3 단백질을 보여줍니다. 인산화 된 펩티드에 결합 된 BRCT 도메인 pdb 코드 :

      1T29 설명 : 이 구조는 BACH1로부터 인산화 된 펩티드에 결합 된 BRCA1 BRCT 도메인을 특징으로하며, BRCT 도메인에 의해 인산화가 어떻게 인식되는지를 보여줍니다. . 유비퀴틴 인식 유비퀴틴에 결합 된 p62의 유비퀴틴-결합 도메인

      PDB 코드 : 3B0F

      설명 : 구조는 유비퀴틴에 결합 된 P62의 UBA (유비퀴틴-관련) 도메인을 나타내며, p62는자가 포식을 위해 폴리 유비퀴틴 화 된 기질을 인식하고 결합하는 방법을 강조한다. 메틸화 인식

      메틸화 된 히스톤에 결합 된 hp1의 크로 모 도메인 PDB 코드 :

      3c1a 설명 : hp1 크로 모 도메인은 트리메틸 화 된 히스톤 H3K9 펩티드와 상호 작용하여 히스톤에서의 메틸화가 어떻게 인식되고 전사 조절에 기여하는지를 보여줍니다. . 아세틸 화 인식

      아세틸 화 된 히스톤 h4 브로 모 도메인에 결합 된

      PDB 코드 : 3mxf

      1. 설명 :
      2. 이 구조는 아세틸 화 된 히스톤 H4 꼬리에 결합 된 BET 단백질 Brd4의 브로 모 도메인을 제시하며, 히스톤의 아세틸 화가 인식되고 염색질 상호 작용을 매개하는 방법을 보여줍니다.
      neddylation 인식

      Cullin-Ring E3 Ligase NEDD8 에 결합 된 리가 제 pdb 코드 : 2zvj 설명 :

      구조는 컬린-링 E3 리가 제와 NEDD8 변형 사이의 상호 작용을 보여줍니다.

      p27kip1 및 사이클린 -CDK 결합 의 인산화 Cdk2- 시클린 인산화 된 p27kip1 에 결합 된 복합체 PDB 코드 : 1JSU 설명 :

      이 구조는 인산화 된 형태의 p27kip1과 상호 작용하는 사이클린 A/cdk2 복합체를 보여 주며, 인산화가 사이클린-의존적 키나제의 결합 및 억제를 조절하는 방법을 보여줍니다. 글리코 실화

      컨카 나 발린의 렉틴 도메인 A 만노 실화 글리코 단백질
        pdb 코드 :
      1. 3fqz

      설명 : 이 구조는 식물 렉틴 인 Concanavalin A를 특징으로하며, 글리코 실화가 단백질-단백질 상호 작용을 매개하는 방법을 보여줍니다. .

      ETS1 전사 인자의 인산화 ets1은 DNA pdb 코드 : 2nny 설명 :

      ETS1의 무질서한 조절 영역은 결합 DNA에 부분적으로 순서를 지정하여 인산화가 표적 서열과 상호 작용하는 능력에 어떤 영향을 미치는지 보여줍니다. p53

      의 아세틸 화
        아세틸 화 된 p53 mdm2 에 결합되었습니다 pdb 코드 :
    2. 1ycr 설명 :

      아세틸 화 된 p53과 MDM2 사이의 상호 작용은 아세틸이 중요한 종양 억제제 인 p53의 안정성과 조절에 어떤 영향을 줄 수 있는지를 보여줍니다. sumoylation

      Sumo-1 Sumo-interacting motif 에 결합되었습니다 pdb 코드 : 4c0n 설명 :

      이 구조는 SUMO-1에 결합 된 Sumo- 상호 작용 모티프를 함유하는 단백질을 보여 주며, Sumoylation이 다양한 단백질 상호 작용을 조절하는 방법을 강조합니다.

      예 : Alphafold 3의 배 예측을 포함하여 PDB 1QJA (인산화 잔기를 치료할 수 있습니다!) PDB 1QJA (ChatGpt-4o가 제공 한 첫 번째 답변)는 인산화 (4 O 원자로 둘러싸인 P 원자)를 갖는 펩티드에 결합 된 14-3-3이라고 불리는 단백질의 구조입니다. 아래 그림에서, 3D 구조는 단백질과 인산화 된 펩티드 사이에서 관찰 된 복합체에 해당한다 (왼쪽 : 풀 뷰, 오른쪽 : 인산염의 확대). 인산염 그룹이 여러 접촉 (점선)을 설정하는 방법을 알 수 있습니다. 아래의 녹색 2D 플롯은 인산염 그룹이 존재할 때 단백질과 상호 작용하는 펩티드에 대한 더 나은 통계 (더 많은 녹색)를 보여주는 Alphafold 3의 PAE 플롯입니다. GPT-4O는 훈련시 PDB를 실제로 배웠습니까? 이메일로 물었을 때 OpenAi가 이에 대한 대답을하지 않았기 때문에 방금 ChatGpt-4O 자체를 물었습니다. 그리고 그 대답은… 일종의 일종이지만 그다지! chatgpt에서 얻은 것은 PDB 항목으로 명시 적으로 훈련되지 않았다는 것입니다 (각 PDB 항목에 대해 종이 초록과 다른 데이터가 포함되어 있기 때문에 좋았을 것입니다). 그러나 Chatgpt는 교육 자료에는 이러한 PDB 항목을 언급하는 논문, 사전 인쇄, 초록 및 교육 문서가 포함된다고 설명했습니다. 그리고 그것이 수많은 PDB 항목에 대해 알게 된 방법입니다.

      PDB 항목의 환각 및이를 극복하는 방법 위의 올바른 경우, GPT-4O가 PDB 자체로 교육을받지 않았지만 특정 PDB 구조를 언급하는 논문 및 기타 문서가있는 경우 많은 구조에 대해 알지 못하는 경우가 있습니다. 특히 종이에 연결되지 않은 것들. 이 아이디어를 따라, 나는 Chatgpt-4o를 조금 더 깊이 심문하고 그것을 노출 시키려고했다. 그것을 깨는 데 시간이 걸렸지 만 결국 관리했습니다. "PDB ID 1CI0을 알고 있습니까?"와 같은 첫 번째 질문에서. (PDB가 종이에 연결되어 있지 않은 표시), 나는 자신있게 응답을 받았지만이 항목은 " desulfovibrio vulgaris "의 시토크롬 c553을 설명합니다. " 그러나 PDB 진입은 이것이 시토크롬 C가 아니며

      desulfovibrio vulgaris

      .

      에 속하지 않는 또 다른 단백질이라고 설명합니다. 이제 모든 환각과 마찬가지로 나쁘고 나쁘다. 그러나 고무적으로, Chatgpt-4o가 온라인 검색을하도록 요청하면 (PDB가 완전히 열려 있음) 올바른 정보를 증류합니다.

      .

      PDB ID 1ci0

      는 Saccharomyces cerevisiae (Brewer 's yeast)에서 Pyridoxine-5'-Phosphate (Pnp) 산화 효소 의 결정 구조를 나타냅니다. 이 효소는 산화물체 효소로 분류되며 비타민 B6 대사 경로에서 중요한 역할을합니다. 그것은 비타민 B6의 활성 형태 인 피리 독신 -5'- 포스페이트의 피리 독상 -5'- 포스페이트로의 전환을 촉진한다. 구조는 2.7 Å의 해상도에서 X- 선 회절을 사용하여 결정되었으며, 생물학적 조립은 동종 이형이다. 실험은 대장균으로 발현 된 재조합 단백질로부터 유래 된 결정을 사용하여 수행되었다. 이 구조는 2 개의 단백질 사슬을 포함하고 보조 인자 플라빈 모노 클레오티드 (FMN)에 결합되며, 이는 효소 활성에 중요합니다. . 이 항목은 1999 년 Shi et al. 생명 공학 또는 의학에서 비타민 B6 생합성 메커니즘과 잠재적 응용을 연구하는 데 종종 사용됩니다.

      … PDB 에서이 항목에 사용할 수있는 모든 정보를 완벽하게 반영하고 "PNP"와 같은 약어 및 짧은 형식 이름을 철자하고 모든 데이터를 정리하기 때문에 실제로 더 좋습니다. PDB와 비교하기 만하면됩니다. 진입 : <..>서사시 “ 크로스 오버 ” Alphafold 3과 GPT-4O의 단백질 데이터 은행 항목에 대한 지식 사이

      그래서? 유용한가요? 이 최신 실험에 대한 나의 결론은 환각에 완벽하게 접속 했음에도 불구하고 Chatgpt가 온라인에서 항목을 뒤로 검색하도록 강요함으로써 교차 점검은 아마도 환각 문제를 완전히 극복 할 수 있다는 것입니다. 이러한 모든 AI 도구와 함께주의가 필요하지만 검색 접근 방식은 신뢰할 수있을 것입니다. 그러나 매우 구체적인 결론을 도출하기 전에 LLM의 출력을 교차 확인하는 것이 좋습니다.

      . 결론 및 전망 이 탐사를 통해, 나는 실험 구조 생물학, Alphafold 3과 같은 도구를 사용한 분자 모델링 및 GPT-4O와 같은 LLM을 수렴하여 연구자들이 OpenAI 덕분에 새로운 방식으로 분자 구조를 검색하고 분석 할 수있는 방법을 설명하고자했습니다. 교육 데이터 세트에 PDB에 대한 콘텐츠를 포함합니다. 우리가 마지막 섹션에서 본 환각 문제에서, 나는 LLM 훈련시 PDB 항목에 대한 정보를 포함시키는 것이이 모든 것을 새로운 차원으로, 더 잘 작동하고 더 정확하게 일할 수 있다고 제안합니다. 그러나 위에서 테스트 한 검색 접근 방식을 사용하면 LLM이 허위 정보에 몰래 들어 가지 않을 것이라는 안전을 느끼게 될 것입니다.

      . 나는 이러한 결합 된 자원을 활용함으로써 과학자들은 주어진 주제와 관련하여 사용 가능한 구조 범위에 대해 훨씬 더 빠르고 더 잘 알 수 있다고 생각합니다. 새로운 특정 생물학적 하위로 이동할 때 가장 유용 할 것입니다.

      나는 또한 이러한 자원이 LLM과 Alphafold 3 (또는 현재 등장하는 유사한 모델)에 대한 조사를 통해 더 많은 노력을 기울일 것이라고 생각합니다. 아마도 자연적인 명령을 통해 복잡한 조작 및 생체 분자 구조의 분석을 수행 할 수 있도록 LLM의 PDB 지식에 도움이되는 분자 그래픽 및 모델링 도구조차도 만들어 질 수 있습니다. www.lucianoabriata.com 나는 자연, 과학, 기술, 프로그래밍 등의 광범위한 관심 분야에있는 모든 것에 대해 글을 씁니다. 소규모 작업에 대해 문의하려면 내 서비스 페이지를 확인하십시오. 여기서 저에게 연락 할 수 있습니다. 당신은 저를 여기로 팁을 줄 수 있습니다.

    위 내용은 서사시 “ 크로스 오버 ” Alphafold 3과 GPT-4O의 단백질 데이터 은행 항목에 대한 지식 사이의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

    성명:
    본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.