최근 상하이자오통대학교 자연과학연구소/물리천문학부/장장고등연구소/약학부 홍량 교수 연구팀과 상하이 인공 지능 연구소는 단백질 돌연변이에 대해 이야기했습니다. 속성 예측에 중요한 돌파구가 마련되었습니다.
이 작업은 매우 적은 양의 실험 데이터를 사용하여 돌연변이 특성 예측에서 기존 단백질 사전 훈련 대형 모델의 성능을 크게 향상시키는 새로운 훈련 전략을 채택합니다.
연구 결과는 "Few-shot 학습을 통해 최소한의 wet-lab 데이터로 단백질 언어 모델의 효율성 향상"이라는 제목으로 "Nature Communications"에 2024년 7월 2일 게재되었습니다.
논문 링크:연구 배경
효소 공학에서는 단백질을 얻기 위해 돌연변이와 단백질 스크리닝이 필요합니다. 더 나은 단백질 제품. 기존의 습식 실험 방법에는 반복적인 실험 반복이 필요하며 이는 시간이 많이 걸리고 노동 집약적입니다.
딥 러닝 방법은 단백질 돌연변이 변환을 가속화할 수 있지만 모델을 훈련하려면 많은 양의 단백질 돌연변이 데이터가 필요합니다. 고품질 돌연변이 데이터를 얻는 것은 전통적인 습식 실험에 의해 제한됩니다.
대량의 습식 실험 데이터 없이도 단백질 돌연변이 기능을 정확하게 예측할 수 있는 방법이 시급합니다.
연구 방법
본 연구에서는 메타 학습, 순위 학습 및 매개 변수의 효율적인 미세 조정을 결합하여 수십 개의 습식 실험 데이터만을 사용하여 단백질 사전 훈련 모델을 훈련시켜 돌연변이를 크게 개선하는 FSFP 방법을 제안합니다. -속성예측효과.
FSFP 방법:
테스트 결과에 따르면 원래 예측 상관 관계가 0.1보다 낮더라도 FSFP 방법은 20개의 습식 실험 데이터만 사용하여 모델을 훈련한 후 상관 관계를 0.5 이상으로 높일 수 있는 것으로 나타났습니다.
그림: FSFP 개요. (출처 : 논문)연구결과
동시에 FSFP의 효과를 연구하기 위해서입니다. 우리는 단백질 Phi29 변형의 특정 사례에서 습식 실험을 수행했습니다. FSFP는 모델 학습에 20개의 습식 실험 데이터만 사용했을 때 원래 단백질 사전 학습 모델 ESM-1v의 상위 20개 단일 지점 돌연변이를 예측할 수 있었습니다. 양성률은 25% 증가했으며 거의 10개의 새로운 양성 단일점 돌연변이가 발견되었습니다.
Summary
이 연구에서 저자는 단백질 사전 훈련 모델을 기반으로 새로운 미세 조정 훈련 방법인 FSFP를 제안했습니다.
FSFP는 메타러닝, 순위 학습 및 효율적인 매개변수 미세 조정 기술을 종합적으로 활용하여 단 20개의 무작위 습식 실험 데이터만 사용하여 단백질 사전 훈련 모델을 효율적으로 훈련하고 모델의 단일 지점 돌연변이 예측 양성률을 크게 향상시킬 수 있습니다. .
위의 결과는 FSFP 방법이 현재의 단백질 공학에서 높은 실험주기를 해결하고 실험 비용을 줄이는 데 큰 의미가 있음을 보여줍니다.
저자 정보
자연과학원/물리천문학부/장장고등연구소의 Hong Liang 교수와 상하이 인공지능연구소의 젊은 연구원 Tan Peng이 교신저자입니다.
Shanghai Jiao Tong University 물리학 및 천문학부의 박사후 연구원 Zhou Ziyi, 석사 학생 Zhang Liang, 박사 과정 학생 Yu Yuanxi 및 생명 과학 기술 대학의 박사 과정 학생 Wu Banghao가 공동 첫 번째 저자입니다.
위 내용은 Shanghai Jiao Tong University의 Da Hongliang 연구 그룹 및 상하이 AI 연구소 팀은 언어 모델을 기반으로 한 단백질 기능의 작은 샘플 예측 방법인 FSFP를 출시했으며 Nature 하위 저널에 게재되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!