>  기사  >  기술 주변기기  >  Shanghai Jiao Tong University의 Da Hongliang 연구 그룹 및 상하이 AI 연구소 팀은 언어 모델을 기반으로 한 단백질 기능의 작은 샘플 예측 방법인 FSFP를 출시했으며 Nature 하위 저널에 게재되었습니다.

Shanghai Jiao Tong University의 Da Hongliang 연구 그룹 및 상하이 AI 연구소 팀은 언어 모델을 기반으로 한 단백질 기능의 작은 샘플 예측 방법인 FSFP를 출시했으며 Nature 하위 저널에 게재되었습니다.

王林
王林원래의
2024-07-11 20:10:28834검색

Shanghai Jiao Tong University의 Da Hongliang 연구 그룹 및 상하이 AI 연구소 팀은 언어 모델을 기반으로 한 단백질 기능의 작은 샘플 예측 방법인 FSFP를 출시했으며 Nature 하위 저널에 게재되었습니다.

Editor | ScienceAI

최근 상하이자오통대학교 자연과학연구소/물리천문학부/장장고등연구소/약학부 홍량 교수 연구팀과 상하이 인공 지능 연구소는 단백질 돌연변이에 대해 이야기했습니다. 속성 예측에 중요한 돌파구가 마련되었습니다.

이 작업은 매우 적은 양의 실험 데이터를 사용하여 돌연변이 특성 예측에서 기존 단백질 사전 훈련 대형 모델의 성능을 크게 향상시키는 새로운 훈련 전략을 채택합니다.

연구 결과는 "Few-shot 학습을 통해 최소한의 wet-lab 데이터로 단백질 언어 모델의 효율성 향상"이라는 제목으로 "Nature Communications"에 2024년 7월 2일 게재되었습니다.

Shanghai Jiao Tong University의 Da Hongliang 연구 그룹 및 상하이 AI 연구소 팀은 언어 모델을 기반으로 한 단백질 기능의 작은 샘플 예측 방법인 FSFP를 출시했으며 Nature 하위 저널에 게재되었습니다.

논문 링크:
  • https://www.nature.com/articles/s41467-024-49798-6

연구 배경

효소 공학에서는 단백질을 얻기 위해 돌연변이와 단백질 스크리닝이 필요합니다. 더 나은 단백질 제품. 기존의 습식 실험 방법에는 반복적인 실험 반복이 필요하며 이는 시간이 많이 걸리고 노동 집약적입니다.

딥 러닝 방법은 단백질 돌연변이 변환을 가속화할 수 있지만 모델을 훈련하려면 많은 양의 단백질 돌연변이 데이터가 필요합니다. 고품질 돌연변이 데이터를 얻는 것은 전통적인 습식 실험에 의해 제한됩니다.

대량의 습식 실험 데이터 없이도 단백질 돌연변이 기능을 정확하게 예측할 수 있는 방법이 시급합니다.

연구 방법

본 연구에서는 메타 학습, 순위 학습 및 매개 변수의 효율적인 미세 조정을 결합하여 수십 개의 습식 실험 데이터만을 사용하여 단백질 사전 훈련 모델을 훈련시켜 돌연변이를 크게 개선하는 FSFP 방법을 제안합니다. -속성예측효과.

FSFP 방법:

  • 단백질 사전 훈련 모델을 사용하여 목표 단백질과 ProteinGym의 단백질 간의 유사성을 평가합니다.
  • 목표 단백질에 가장 가까운 두 개의 ProteinGym 데이터 세트를 메타 학습 보조 작업으로 선택하세요.
  • GEMME의 표적 단백질 점수 데이터를 세 번째 보조 작업으로 사용하세요.
  • 순위 학습 손실 함수와 Lora 훈련 방법을 사용하여 소량의 습식 실험 데이터에 대해 단백질 사전 훈련 모델을 훈련시킵니다.

테스트 결과에 따르면 원래 예측 상관 관계가 0.1보다 낮더라도 FSFP 방법은 20개의 습식 실험 데이터만 사용하여 모델을 훈련한 후 상관 관계를 0.5 이상으로 높일 수 있는 것으로 나타났습니다.

Shanghai Jiao Tong University의 Da Hongliang 연구 그룹 및 상하이 AI 연구소 팀은 언어 모델을 기반으로 한 단백질 기능의 작은 샘플 예측 방법인 FSFP를 출시했으며 Nature 하위 저널에 게재되었습니다.

그림: FSFP 개요. (출처 : 논문)

연구결과
동시에 FSFP의 효과를 연구하기 위해서입니다. 우리는 단백질 Phi29 변형의 특정 사례에서 습식 실험을 수행했습니다. FSFP는 모델 학습에 20개의 습식 실험 데이터만 사용했을 때 원래 단백질 사전 학습 모델 ESM-1v의 상위 20개 단일 지점 돌연변이를 예측할 수 있었습니다. 양성률은 25% 증가했으며 거의 ​​10개의 새로운 양성 단일점 돌연변이가 발견되었습니다.

Shanghai Jiao Tong University의 Da Hongliang 연구 그룹 및 상하이 AI 연구소 팀은 언어 모델을 기반으로 한 단백질 기능의 작은 샘플 예측 방법인 FSFP를 출시했으며 Nature 하위 저널에 게재되었습니다.

그림: FSFP를 사용한 엔지니어링 Phi29. (출처: Paper)

Summary

이 연구에서 저자는 단백질 사전 훈련 모델을 기반으로 새로운 미세 조정 훈련 방법인 FSFP를 제안했습니다.

FSFP는 메타러닝, 순위 학습 및 효율적인 매개변수 미세 조정 기술을 종합적으로 활용하여 단 20개의 무작위 습식 실험 데이터만 사용하여 단백질 사전 훈련 모델을 효율적으로 훈련하고 모델의 단일 지점 돌연변이 예측 양성률을 크게 향상시킬 수 있습니다. .

위의 결과는 FSFP 방법이 현재의 단백질 공학에서 높은 실험주기를 해결하고 실험 비용을 줄이는 데 큰 의미가 있음을 보여줍니다.

저자 정보

자연과학원/물리천문학부/장장고등연구소의 Hong Liang 교수와 상하이 인공지능연구소의 젊은 연구원 Tan Peng이 교신저자입니다.

Shanghai Jiao Tong University 물리학 및 천문학부의 박사후 연구원 Zhou Ziyi, 석사 학생 Zhang Liang, 박사 과정 학생 Yu Yuanxi 및 생명 과학 기술 대학의 박사 과정 학생 Wu Banghao가 공동 첫 번째 저자입니다.

위 내용은 Shanghai Jiao Tong University의 Da Hongliang 연구 그룹 및 상하이 AI 연구소 팀은 언어 모델을 기반으로 한 단백질 기능의 작은 샘플 예측 방법인 FSFP를 출시했으며 Nature 하위 저널에 게재되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.