Editor | Radish Skin
딥러닝의 발전으로 단백질 설계와 엔지니어링은 전례 없는 속도로 발전하고 있습니다. 그러나 현재 모델은 설계 과정에서 비단백질 개체를 자연스럽게 설명할 수 없습니다.
여기서 스위스 EPFL(Ecole Polytechnique Fédérale de Lausanne)의 연구원들은 원자 좌표와 원소 이름의 기하학적 변환기를 전적으로 기반으로 하는 딥 러닝 방법을 제안했습니다. 이는 다양한 분자 환경에 의해 부과된 제약 조건을 기반으로 골격을 형성할 수 있으며 단백질을 예측할 수 있습니다. 시퀀스.
이 방법을 사용하면 연구자들은 열 안정성과 촉매 활성이 높은 효소를 높은 성공률로 생산할 수 있습니다. 이는 원하는 기능을 달성하기 위해 단백질 설계 파이프라인의 다양성을 높일 것으로 예상됩니다.
이 연구의 제목은 "단백질 서열 설계를 위한 상황 인식 기하학적 딥 러닝"이며 2024년 7월 25일 "Nature Communications"에 게재되었습니다.
기능적 작업을 달성하기 위해 단백질을 설계하는 것은 주요 생물학, 의학, 생명공학 및 재료과학에 영향을 미치는 과제입니다. 주요 응용 분야는 단백질 치료제의 설계로, 특정 질병을 정확하게 표적으로 삼는 단백질을 맞춤화하는 것이 소분자 약물보다 더 경쟁력이 있을 수 있습니다. 이러한 접근 방식은 자가면역 질환부터 암까지 다양한 건강 문제의 치료에 혁명을 일으켜 보다 효과적이고 개인화된 치료법을 제공할 수 있습니다.
또한 효소 기능을 설계하는 것도 단백질 설계의 또 다른 중요한 과제입니다. 효소는 천연 촉매 역할을 하며 생물학적 과정에서 중요한 역할을 합니다. 새로운 효소를 설계하거나 기존 효소를 변형함으로써 드물거나 자연에 존재하지 않는 반응을 촉진하는 촉매를 만드는 것이 가능합니다. 이는 복잡한 약물 분자 합성이나 오염 물질 및 플라스틱 분해와 같은 제약 및 환경 기술을 포함한 여러 산업에 광범위한 영향을 미칩니다.
딥 러닝 방법은 단백질 디자인의 성공률과 다양성을 크게 가속화합니다. 그러나 현재의 단백질 설계 모델은 여러 단백질 사슬을 처리할 수 있지만 비단백질 개체를 처리할 때는 성능이 좋지 않아 적용 범위가 제한됩니다.
이 문제를 해결하기 위해 EPFL 연구팀은 원자점 구름에서 작동하는 기하학적 변환기 아키텍처인 PeSTo(단백질 구조 변환기)라는 딥 러닝 모델을 도입한 적이 있습니다.
PeSTo는 스칼라 및 벡터 상태를 활용하여 원자를 표현하고 단백질, 핵산, 지질, 이온, 작은 리간드, 보조 인자 또는 탄수화물을 포함한 거의 모든 분자-단백질 인터페이스에서 상호 작용을 예측할 수 있는 변환기 주의 메커니즘을 통합합니다.
최근 연구에서 팀은 이 모델의 고유한 기능을 활용하여 PeSTo 기반 단백질 서열 생성기 모델 CARBonAra(백본 원자 및 헤테로원자에서 컨텍스트 인식 아미노산 회수)를 도입했습니다.
CARBonAra는 특정 백본 스캐폴드의 모든 위치에 대한 아미노산 신뢰도를 예측하기 위해 PDB에서 사용할 수 있는 구조 데이터에 대해 고유하게 훈련되었으며, 이는 단독으로 제공되거나 서열 설계 분자 복합체를 구동하는 데 도움이 되는 모든 종류 및 수의 도구와 함께 제공될 수 있습니다.
CARBonAra의 구성 및 성능
CARBonAra는 기하 변환기로 구성된 딥 러닝 모델을 사용하여 입력 백본 스캐폴드의 단백질 서열 각 위치에서 특정 아미노산을 찾을 가능성을 예측합니다. CARBonAra는 골격 원자(Cα, C, N, O)의 좌표와 요소를 입력으로 사용하고 이상적인 결합 각도와 결합 길이를 사용하여 가상 Cβ 원자를 추가합니다. 기하학은 각 원자 사이의 거리와 정규화된 상대 변위 벡터를 사용하여 설명됩니다.
기하학적 변환기 연산은 인접한 모든 원자의 상호 작용을 인코딩하고 변환기를 사용하여 스칼라 및 벡터 정보를 처리하고 각 원자의 상태를 업데이트합니다. 마지막으로 연구진은 원자 수준에서 잔기 수준까지 원자 상태를 집계하여 위치별 채점 매트릭스 형태로 단백질 서열의 각 위치에 대한 아미노산 신뢰도를 예측하도록 모델을 훈련했습니다.
실제로 이러한 신뢰도는 각 아미노산 유형에 대한 예측 신뢰도를 고려하여 올바른 예측의 확률을 특성화함으로써 확률로 해석되고 매핑될 수 있습니다.
다른 모델과 마찬가지로 CARBonAra는 원-핫 인코딩을 사용하여 특정 아미노산에 대한 이전 서열 정보를 백본 원자에 각인함으로써 자동 회귀 예측을 지원합니다.
가장 중요한 점은 CARBonAra가 광범위한 매개변수화 없이 요소 이름과 원자 좌표만 사용하는 PeSTo의 기능을 계승하여 다양한 시나리오에 쉽게 적응할 수 있다는 것입니다.
따라서 CARBonAra는 다른 단백질, 소분자, 핵산, 지질, 이온 및 물 분자와 같은 다양한 입력을 포함하여 설계 중인 단백질 백본 근처의 모든 분자 실체를 분석하고 처리할 수 있습니다.
데이터 세트
CARBonnAra의 고유한 유연성을 활용하여 연구원은 RCSB PDB의 모든 생물학적 어셈블리를 교육 데이터 세트에 통합할 수 있습니다.
여기에는 이온, 리간드, 핵산 등과 같은 다른 분자 실체와 복합체를 이루는 단백질이 포함됩니다. 훈련 데이터 세트는 약 370,000개의 하위 단위로 구성되었으며 추가로 100,000개의 하위 단위가 검증 데이터 세트에 사용되었으며, 모두 RCSB PDB 생물학적 어셈블리에서 파생되었으며 가능한 한 최선으로 주석이 달렸습니다.
이전에 확립된 방법에 비해 약간 더 엄격한 프로토콜에 따라 테스트 데이터 세트는 약 70,000개의 하위 단위로 구성되었으며 공유 CATH 도메인이 없는 훈련 세트와 다르며 30% 미만의 서열 동일성 필터에서 수행되었습니다.
이 선택 기준은 훈련 데이터 세트에 존재하는 유사한 접힘 및 시퀀스를 제외하므로 테스트의 견고성을 보장합니다.
비단백질 분자를 포함하지 않는 골격 구조에서 단백질 또는 단백질 복합체를 분리하는 서열 설계에서 CARBonAra는 ProteinMPNN 및 ESM-IF1과 같은 최첨단 서열 예측 방법과 동등한 성능을 발휘합니다. Competitive의 계산 비용(GPU의 ProteinMPNN보다 약 3배 빠르며 ESM-IF1보다 10배 빠름).
주쇄 구조에서 단백질 서열 재구성
이 방법을 사용하여 주쇄 구조에서 단백질 서열을 재구성할 때 단백질 단량체 디자인의 중앙 서열 복구율은 51.3%, 이량체 디자인의 중앙 서열 복구율은 51.3%입니다. 56.0%. 유사한 회수율에도 불구하고 세 가지 방법의 최상의 서열 간 서열 동일성의 중앙값은 54%에서 58%까지 다양했습니다.
또한 연구원들은 CARBonnAra가 단일 시퀀스 모드에서 AlphaFold를 사용하여 예측할 때 0.9 이상의 TM 점수로 예상대로 접히는 고품질 시퀀스를 생성할 수 있음을 관찰했습니다.
CARBonAra는 단백질 코어에서 더 단단한 아미노산 패킹을 학습하여 회수율을 높이고 일반적인 매장된 아미노산 치환에 대한 낮은 내성을 반영하는 동시에 추가적인 기능적 또는 구조적 제약을 제공하지 않는 한 단백질 표면에서 더 높은 가변성을 허용합니다.
백본 스캐폴드의 시퀀스 예측 방법은 주로 이상적인 백본 기하학적 구조를 갖춘 실험 데이터를 기반으로 훈련되며, 이는 생성된 백본에 적용할 때 성능 저하를 초래합니다. 훈련 중에 형상에 노이즈를 추가하면 이 문제를 완화할 수 있습니다.
연구원들은 분자 역학(MD) 시뮬레이션의 구조 궤적에 CARBonnAra를 적용하여 방법의 견고성을 특성화했습니다. 서열 복구율(53±10%)은 백본 구조 변화와 이전에 낮은 복구율을 보였던 사례의 증가로 인해 합의 예측(54±7%)에서 크게 감소하지 않았습니다.
동시에 연구자들은 위치당 가능한 예측 아미노산 수가 전반적으로 감소하는 것을 관찰했는데, 이는 구조적 공간을 탐색하는 것이 서열 공간을 제한하여 표적 구조적 구조의 설계를 가능하게 한다는 것을 시사합니다.
단백질 디자인 자체 이상의 의미를 가집니다
연구원들은 CARBonAra가 효소 공학의 과제를 어떻게 처리하는지 보여주기 위해 주력 시스템인 TEM-1 세린 베타-락타마제에 대한 실험을 수행했습니다. 고온에서 접혀 촉매 활성을 유지합니다. 또한 연구자들은 CARBonnAra의 출력에서 단백질 서열 공간을 샘플링하기 위한 집중적인 전략을 탐구했습니다.
가장 높은 점수를 받은 아미노산에서 생성된 단백질 서열이 기능성인지 여부를 확인할 수 없기 때문에 시험관 내에서 재조합적으로 발현될 수 있는 안정적이고 기능적인 단백질을 생성하려면 샘플링 전략이 필요합니다.
이것은 아직까지 철저하게 테스트되지 않았습니다. 연구팀은 적절한 샘플링 전략이 기능성 단백질을 생성하기 위한 풍부한 정보를 생성할 수 있을 뿐만 아니라 천연 서열에서 관찰된 자연적 변이를 반영하거나 돌연변이 유발 및 선택 비교를 통해 실험적으로 샘플링된 합성 다중 서열을 생성할 수도 있음을 보여줍니다.
이는 단백질 디자인 그 자체를 넘어서는 의미를 가지며, 특히 생물물리학적으로 일관된 단백질 진화 모델의 틀 내에서 단백질이 어떻게 진화하는지에 대한 창을 열어줍니다.
기본적으로 컴퓨터 설계의 성공률을 높이는 것은 이 분야를 진정으로 마스터하는 데 중요하며, 보다 실질적으로 실험실에서 실제 발현 및 정제를 시도할 때 비용을 절감하기 위해서는 중요합니다.
매우 높은 성공률
이제 AI 기반 방법이 안정화되기 시작하면서 이것이 중요한 논의점이 됩니다. 방법과 보고서에 따라 성공률이 매우 다양하지만 각 방법을 평가하는 방법이 불분명한 경우가 많습니다.
Chroma는 성공률을 약 3%로 설정하여 매우 보수적으로 평가하는 반면, RoseTTAFold/ProteinMPNN 논문에서는 여러 단백질에 대해 평균 성공률을 15%로 보고합니다.
본 연구에서 보고된 TEM-1 베타-락타마제 설계를 사용하여 성공률이 40%에 이르렀습니다. 마찬가지로 TIM 배럴과 NTF2 폴딩 성공률도 40~55%에 달해 이전 평균 15%를 훨씬 웃돈다.
단백질 열 안정성 향상에 적합
새로운 단백질 설계 및 단백질 기능 조정에 직접 적용하는 것 외에도 CARBonAra는 다른 단백질 설계 방법에서도 견고하고 열 안정성이 높은 단백질을 생성하므로 열 안정성 향상에 매우 적합한 것으로 보입니다. 단백질.
이 관찰에서 밝혀진 흥미로운 측면은 제조 및 산업 공정을 안정화하는 데 사용되는 설계된 효소 서열의 지적 재산권과 관련이 있습니다. 일반적으로 설계된 효소는 더 작지만 다소 넓은 범위의 서열 유사성을 포괄하는 방식으로 보호됩니다. .
역사적으로 이것은 충분히 포괄적이었지만 CARBonnAra를 포함한 현대 단백질 설계 방법은 기능을 유지하고 안정성이 높은 훨씬 덜 유사한 단백질을 설계할 수 있습니다.
결론
앞으로 CARBonAra는 다른 단백질 설계 방법에 비해 몇 가지 장점이 있습니다. 주로 추가 매개변수화나 중간 계산이 필요하지 않고 요소 이름과 좌표만을 기반으로 하는 내부 작업과 관련이 있습니다.
따라서 CARBonAra는 다른 대안보다 더 유연해 보입니다. 본질적으로 모든 유형의 분자 시스템을 분석할 수 있기 때문에 다른 유형의 생체분자(예: 핵산, 소분자, 이온, 심지어 물) 또는 생물학적 집합체에서 발견되지 않는 분자(예: 물질 및 표면)에 대해 훈련할 수 있습니다. 전제는 충분한 데이터가 있다는 것입니다.
요약하자면, CARBonAra는 구조적 데이터를 기반으로 하며 단백질 서열 예측 및 설계에 대한 개념적으로 다른 접근 방식이며, 분자 설계 및 합성 생물학의 미래 과제를 해결하는 데 필요한 추가적인 유연성을 제공합니다.
논문 링크:https://www.nature.com/articles/s41467-024-50571-y
위 내용은 네이처 서브저널, 10배 빠른 트랜스포머 기반 역단백질 서열 설계 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!