단백질 글리코실화는 당 그룹에 의한 단백질의 번역 후 변형으로, 세포의 다양한 생리적, 병리학적 기능에 중요한 역할을 합니다.
당단백질체학은 당화 위치, 당화 수준 및 당 구조에 대한 결합된 정보를 얻기 위해 탠덤 질량 분석법(MS/MS) 기술과 결합된 액체 크로마토그래피를 사용하여 프로테옴 내 단백질 당화에 대한 연구입니다.
그러나 현재 글리코프로테오믹스에 대한 데이터베이스 검색 방법은 구조 결정 이온의 제한된 발생으로 인해 글리칸 구조를 결정하는 데 종종 어려움을 겪습니다. 스펙트럼 검색 방법은 조각화 강도를 활용하여 글리코펩타이드의 구조적 식별을 용이하게 할 수 있지만 스펙트럼 라이브러리 구성의 어려움으로 인해 응용이 방해됩니다.
최근 연구에서 푸단대학교 연구진은 글리코펩타이드의 MS/MS 스펙트럼과 RT(Retention Time)를 예측하기 위해 Transformer와 그래프 신경망을 기반으로 한 하이브리드 딥 러닝 프레임워크인 DeepGP를 제안했습니다.
두 개의 그래프 신경망 모듈을 사용하여 각각 분지형 설탕 구조를 포착하고 설탕 이온 강도를 예측합니다. 또한 당단백질 데이터의 부족을 완화하기 위해 사전 훈련 전략이 구현되었습니다.
이 연구의 제목은 "글리코펩타이드 탠덤 질량 스펙트럼의 딥 러닝 예측, 글리코프로테오믹스 강화"이며 2024년 7월 30일 "Nature Machine Intelligence"에 게재되었습니다.
단백질 번역 후 변형(PTM)은 프로테옴의 복잡성을 크게 증가시킵니다. 가장 중요한 PTM 중 하나인 글리코실화는 포유류 단백질의 50% 이상에 영향을 미치며 많은 생리학적, 병리학적 과정에서 중요한 역할을 합니다.당화 과정에서 당 분자는 특정 아미노산 잔기의 측쇄에 부착되어 구조적 이질성이 발생하여 당펩티드 이성질체의 다양성이 발생하고 식별의 어려움이 증가합니다.
액체 크로마토그래피 탠덤 질량 분석법(LC-MS/MS)은 RT와 결합된 단편 이온 및 분자량으로 글리코펩타이드를 식별하는 기본 기술입니다. 질량 대 전하 비율(m/z)만으로는 당 구조를 결정하는 데 충분하지 않으므로 과학자들은 식별 감도를 향상시키기 위해 스펙트럼 일치 방법을 사용합니다. 그러나 글리코펩타이드 MS/MS 스펙트럼 라이브러리를 구축하는 것은 비용이 많이 들고 복잡합니다.
최근 몇 년 동안 딥 러닝은 펩타이드 MS/MS 스펙트럼 예측 분야에서 진전을 이루었습니다. 그러나 현재 글리코펩티드 질량 분석 데이터 세트의 수가 상대적으로 적고 글리코펩티드 질량 분석 데이터 생성을 위한 표준화된 프로토콜이 부족하여 딥 러닝 모델 훈련에 적합한 데이터의 가용성이 제한됩니다.
이를 위해 푸단대학교 연구진은 완전한 N-글리코펩타이드 MS/MS 스펙트럼 및 RT 예측을 위한 딥 러닝 기반 하이브리드 엔드투엔드 프레임워크인 DeepGP를 제안합니다. 딥 러닝 프레임워크는 사전 훈련된 Transformer 모듈과 2개의 그래프 신경망(GNN) 모듈로 구성됩니다.
그림: 모델 아키텍처 및 글리코펩타이드 MS/MS 스펙트럼 예측.DeepGP 모델
인코딩된 글리코펩타이드 특징:
설탕 구조는 GNN을 통해 내장되어 글리코펩타이드를 그래프로 변환합니다.
두 개의 GNN 모듈은 설탕 구조를 포착하고 설탕 이온 강도를 예측합니다.
연구원들은 설탕 인터칼레이션을 위해 그래프 컨벌루션 네트워크(GCN), 그래프 동형 네트워크(GIN) 및 그래프 어텐션 네트워크(GAT)를 포함한 세 가지 GNN 아키텍처를 평가했습니다. 및 B/Y 이온 강도 예측.
GCN은 컨볼루션 작업을 활용하여 노드 표현을 얻고 메시지 전달 프로토콜을 구현하여 인접 노드의 표현을 집계합니다. GIN은 모델이 입력의 가장 관련성이 높은 부분에 집중할 수 있도록 주의 메커니즘을 통합합니다. .
실험 결과 GCN은 설탕 삽입 작업에서 가장 좋은 성능을 발휘하고 GIN은 B/Y 이온 강도 예측 작업에서 가장 좋은 성능을 보여 해당 분석을 위해 GCN과 GIN을 선택했습니다.
당단백체학 데이터 부족을 완화하기 위한 사전 훈련 전략
DeepGP는 BERT와 같은 모델과 마찬가지로 사전 훈련을 위해 레이블이 지정되지 않은 대량의 자연어 데이터를 사용합니다. 사전 훈련을 통해 모델은 정식 훈련 이전에 지식 기반을 확보할 수 있으므로 소규모 주석 데이터를 처리하는 성능이 향상됩니다.
여러 생물학적 데이터 세트에 대한 테스트
研究者らは、マウスとヒトのサンプル データセットを使用して、MS/MS および RT 予測における DeepGP の高い精度を実証しました。
図: 糖ペプチドの同定のために、DeepGP と pGlyco3 (糖ペプチド検索メソッド) を組み合わせたもの。 (出典: 論文)合成および生物学的データセットに対する DeepGP の包括的なベンチマークにより、類似した糖鎖を区別する際の DeepGP の有効性が検証されます。 DeepGP とデータベース検索を組み合わせると、糖ペプチドの検出感度が向上します。
論文リンク:
https://www.nature.com/articles/s42256-024-00875-x
위 내용은 글리코프로테오믹스의 새로운 방법, Fudan은 Transformer와 GNN을 기반으로 하이브리드 엔드투엔드 프레임워크를 개발했으며 Nature 하위 저널에 게재됨의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!