Editor | KX
약물 연구 및 개발 분야에서 단백질과 리간드의 결합 친화도를 정확하고 효과적으로 예측하는 것은 약물 스크리닝 및 최적화에 매우 중요합니다. 그러나 현재 연구에서는 단백질-리간드 상호작용에서 분자 표면 정보의 중요한 역할을 고려하지 않습니다.
이를 바탕으로 Xiamen University의 연구자들은 처음으로 단백질 표면, 3D 구조 및 서열에 대한 정보를 결합하고 다양한 모드에 대한 교차 주의 메커니즘을 사용하는 새로운 다중 모드 특징 추출(MFE) 프레임워크를 제안했습니다. 상태 간 기능 정렬.
실험 결과에 따르면 이 방법은 단백질-리간드 결합 친화도를 예측하는 데 있어 최첨단 성능을 달성하는 것으로 나타났습니다. 또한 절제 연구는 이 프레임워크 내에서 단백질 표면 정보와 다중 모드 기능 정렬의 효율성과 필요성을 보여줍니다.
"표면 기반 다중 모드 단백질-리간드 결합 친화도 예측"이라는 제목의 관련 연구가 "Bioinformatics" 6월 21일자에 게재되었습니다.
단백질-리간드 결합 친화도 예측은 신약 발견의 핵심 단계로 오랫동안 광범위하게 연구되어 왔으며, 이는 효율적이고 정확한 약물 스크리닝에 매우 중요합니다.
기존 컴퓨터 기반 약물 발견 도구는 점수 함수(SF)를 사용하여 단백질-리간드 결합 친화도를 대략적으로 추정하지만 정확도는 낮습니다. 분자 역학 시뮬레이션 방법은 보다 정확한 결합 친화도 추정을 제공할 수 있지만 비용과 시간이 많이 소요되는 경우가 많습니다.
컴퓨팅 기술의 발전과 대규모 생물학적 데이터의 풍부함이 증가함에 따라 딥러닝 기반 방법은 단백질-리간드 결합 친화도 예측 분야에서 큰 잠재력을 보여주었습니다.
그러나 현재 연구는 단백질-리간드 결합 친화도를 예측하기 위해 주로 서열 기반 또는 구조 기반 표현을 활용하며, 단백질-리간드 상호 작용에 중요한 단백질 표면 정보에 대한 연구는 상대적으로 적습니다.
분자 표면은 단백질 구조를 높은 수준으로 표현한 것으로, 단백질과 다른 생체 분자의 상호 작용 패턴의 지문 역할을 하는 특징적인 화학적, 기하학적 패턴을 나타냅니다. 따라서 일부 연구에서는 단백질 표면 정보를 사용하여 단백질-리간드 결합 친화도를 예측하기 시작했습니다.
그러나 기존 방법은 주로 단일 모드 데이터에 중점을 두고 단백질의 다중 모드 정보를 무시합니다. 더욱이, 단백질의 다중 모드 정보를 처리할 때 전통적인 방법은 일반적으로 서로 다른 양식의 특징을 이들 사이의 이질성을 고려하지 않고 직접적인 방식으로 연결하므로 양식 간의 상보성을 효과적으로 활용할 수 없습니다.
여기서 연구자들은 처음으로 단백질 표면, 3D 구조 및 서열의 정보를 결합하는 새로운 다중 모드 특징 추출(MFE) 프레임워크를 제안합니다.
구체적으로, 연구에서는 단백질 특징 추출 모듈과 다중 모드 특징 비교 모듈이라는 두 가지 주요 구성 요소를 설계했습니다.
단백질 특징 추출 모듈은 단백질 표면, 구조 및 서열 정보에서 초기 임베딩을 추출하는 데 사용됩니다.
다중 모달 기능 비교 모듈에서는 교차 주의 메커니즘을 사용하여 단백질 구조, 시퀀스 임베딩 및 표면 임베딩 간의 기능 비교를 달성하여 통합되고 정보가 풍부한 기능 임베딩을 얻습니다.
현재의 최첨단 방법과 비교하여 제안된 프레임워크는 단백질-리간드 결합 친화도 예측 작업에서 최상의 결과를 달성합니다.
표 1은 단백질-리간드 결합 친화도 예측 작업에 대한 MFE 및 기타 기준 모델의 결과를 보여줍니다. 모든 모델은 동일한 훈련 및 검증 세트 분할 방법을 사용했으며 PDBbind 코어 세트(버전 2016)에서 테스트되었습니다. MFE 방법은 모든 기준선과 비교하여 SOTA 성능을 달성하는 것을 확인할 수 있습니다.
다양한 모달 기능과 기능 비교의 효과와 필요성을 추가로 입증하기 위해 연구원들은 다음과 같은 절제 연구를 수행했습니다. W/O 단백질 표면 정보, W/O 단백질 구조 정보, w/O o 단백질 서열 정보 및 특징 없는 정렬. 결과는 표 2 및 그림 2에 나와 있습니다.
그림 2: 절제 연구 결과. (출처: 논문)
결과에 따르면 표면 정보가 제거되면 성능이 크게 저하되어 모델에서 표면 정보가 중요한 역할을 한다는 것을 알 수 있습니다. 마찬가지로, 구조 정보나 서열 정보를 제외하면 성능 저하가 발생하고, 서열 정보를 제거하면 성능 저하가 더욱 두드러집니다. 이는 서열 정보에 단백질에 대한 전반적인 정보가 포함되어 있기 때문이며, 이는 모델이 단백질을 완전히 이해하는 데 중요합니다.
또한 기능 비교가 없으면 모델의 성능이 저하됩니다. 이는 다양한 모달 기능 간의 이질성을 줄여 다양한 모달 기능을 효과적으로 통합하는 모델의 능력을 향상시키는 데 도움이 되므로 다중 모드 데이터 처리에서 기능 비교의 중요성을 강조합니다.
다양한 하이퍼파라미터가 모델 성능에 미치는 영향을 연구하기 위해 연구원들은 다음 세 가지 실험을 수행했습니다. (i) MFE-A-6: 화학을 나타내기 위해 6가지 기본 원자 유형만 사용 수소, 탄소, 질소, 산소, 인 및 황을 포함한 표면 특성, (ii) MFE-P-256: 리간드 중심에 가장 가까운 256개 표면 지점만 단백질 포켓 표면으로 선택됩니다. -P -1024: 리간드 중심에 가장 가까운 1024개의 표면 지점을 단백질 포켓 표면으로 선택합니다.
그림 3은 단백질-리간드 결합 친화도 예측 작업에 대한 세 가지 서로 다른 하이퍼파라미터 선택 방법의 결과를 보여줍니다.
특징 정렬이 모델 성능에 미치는 영향을 심층적으로 연구하기 위해 연구진은 주성분 분석(PCA)을 사용하여 단백질 표면, 구조적 차원 축소 및 합산을 수행했습니다. 테스트 세트의 시퀀스 기능 및 시각적 분석. 이 접근 방식은 기능 정렬이 다중 모드 임베딩 간의 이질성을 완화할 수 있는지 확인하는 것을 목표로 합니다.
연구에 따르면 특징 정렬이 단백질 표면, 구조 및 서열 삽입 간의 일관성을 크게 향상시키는 것으로 나타났습니다. 이는 다양한 기능 간의 어텐션 가중치를 계산하는 어텐션 메커니즘을 통해 Transformer의 다중 모드 기능 상호 작용을 최적화했기 때문입니다. 이를 통해 주요 정보를 포착하는 모델의 능력이 향상되어 다양한 양식의 데이터가 특징 공간에 더욱 밀접하게 클러스터될 수 있으므로 모델의 단백질-리간드 상호 작용 식별 시 노이즈와 오류가 줄어듭니다.
마지막으로 연구자들은 “요약하자면, 단백질 표면을 연구함으로써 단백질이 다른 생체 분자와 어떻게 상호 작용하는지 더 깊이 이해할 수 있습니다. 향후 연구에서는 단백질 표면을 더욱 철저하게 탐구하여 단백질의 더 넓은 응용 분야를 밝힐 것입니다. bioinformatics"
참고: 표지는 인터넷
에서 가져온 것입니다.위 내용은 SOTA 성능, 샤먼 다중 모드 단백질-리간드 친화성 예측 AI 방법, 최초로 분자 표면 정보 결합의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!