>기술 주변기기 >일체 포함 >5억년에 걸친 진화 정보를 시뮬레이션하여 단백질 서열, 구조 및 기능을 동시에 추론하는 최초의 대규모 생물학적 모델입니다.

5억년에 걸친 진화 정보를 시뮬레이션하여 단백질 서열, 구조 및 기능을 동시에 추론하는 최초의 대규모 생물학적 모델입니다.

王林
王林원래의
2024-06-26 20:40:11939검색

5억년에 걸친 진화 정보를 시뮬레이션하여 단백질 서열, 구조 및 기능을 동시에 추론하는 최초의 대규모 생물학적 모델입니다.

Editor | Radish Skin

30억년의 **긴** 자연 진화 과정에서 **기존** 단백질의 **형태**가 형성되고 오랜 자연 선택 과정을 거쳤습니다. 진화는 단백질의 순서, 구조 및 기능에 따라 선별하는 무작위 돌연변이 및 선택 메커니즘을 통해 지질학적 시간 규모에서 수행되는 병렬 실험과 같습니다.

, 여기서 EvolutionaryScale의 연구원들은 진화 생성 마커에 대해 훈련된 언어 모델이 알려진 단백질 서열 **단백질과 다른 기능을 생성하기 위한 진화 시뮬레이터 역할을 할 수 있음을 보여줍니다.

연구원들은 단백질 서열, 구조 및 기능을 추론할 수 있는 **고급** 다중 모드 생성 언어 모델인 **최첨단** ESM3을 제안합니다. ESM3은 복잡한 단서를 따르기 위해 양식을 결합할 수 있으며 생물학적 정렬에 매우 민감합니다.

연구원들은 ESM3을 사용하여 **고성능** 형광 단백질을 생성합니다. 가장 **효율적인** 형광 단백질 중 하나는 알려진 형광 단백질과 매우 다른 서열(58% 상동성)을 가지고 있습니다.

이 연구의 사전 인쇄 기사 "언어 모델을 사용한 5억년 진화 시뮬레이션"은 가까운 시일 내에 bioRxiv 사전 인쇄 플랫폼에 게시될 예정입니다.

5억년에 걸친 진화 정보를 시뮬레이션하여 단백질 서열, 구조 및 기능을 동시에 추론하는 최초의 대규모 생물학적 모델입니다.

자연 진화는 어떻게 30억년이 넘는 세월에 걸쳐 자연에 존재하는 현재의 단백질 다양성을 형성했습니까?

이 과정에는 **많은** 무작위 돌연변이와 자연 선택 사건이 포함됩니다. 각 링크는 단백질의 서열, 구조 및 생물학적 기능에 대한 **엄격한** 테스트입니다. 변화된 단백질이 유지될 수 있습니다.

따라서 기존 단백질 서열 정보에는 본질적으로 수십억 년의 긴 진화 경로에 생물학적 변수가 미치는 영향이 포함되어 있습니다.

EvolutionaryScale 팀은 ESM3이라는 다중 모드 생성 언어 모델을 사용하여 이 거대한 진화 과정을 시뮬레이션할 수 있는 혁신적인 접근 방식을 제안했습니다.

5억년에 걸친 진화 정보를 시뮬레이션하여 단백질 서열, 구조 및 기능을 동시에 추론하는 최초의 대규모 생물학적 모델입니다.
동영상 링크: https://www.php.cn/link/4b816bc18d998441c4cbc6058277c844
동영상: ESM3 개요. (출처: 회사 공식 홈페이지)

ESM3는 단백질 서열을 이해하고 생성할 수 있을 뿐만 아니라 단백질의 구조와 기능을 종합적으로 고려할 수 있어 강력한 진화 시뮬레이션 도구가 됩니다. 이 모델은 단백질의 거동을 이해하고 예측하는 데 중요한 단백질의 3차원 구조 정보를 효율적으로 처리할 수 있는 독특한 기하학적 주의 메커니즘으로 설계되었습니다.

5억년에 걸친 진화 정보를 시뮬레이션하여 단백질 서열, 구조 및 기능을 동시에 추론하는 최초의 대규모 생물학적 모델입니다.

그림: ESM3은 단백질 서열, 구조 및 기능을 동시에 추론할 수 있습니다. (출처: 논문)

언어 모델은 개별 단위 또는 토큰으로 작동합니다. 단백질의 세 가지 기본 생물학적 특성(서열, 구조, 기능)을 추론할 수 있는 모델을 만들려면 연구자는 3차원 구조와 기능을 개별 알파벳으로 변환하고 각 3차원 구조를 다음과 같이 작성하는 방법을 구축해야 합니다. 일련의 문자 방법.

이를 통해 ESM3은 대규모로 훈련되어 새로운 생성 기능을 잠금 해제할 수 있습니다. ESM3의 어휘는 순서, 구조 및 기능을 동일한 언어 모델에 통합합니다.

5억년에 걸친 진화 정보를 시뮬레이션하여 단백질 서열, 구조 및 기능을 동시에 추론하는 최초의 대규모 생물학적 모델입니다.

그림: ESM3은 서열, 구조 및 기능의 다중 모드 단서를 통해 PETase 활성 부위를 위한 비계를 설계했습니다. (출처: 논문)

ESM3의 훈련 목표는 간단합니다. 각 단백질에 대해 그 서열, 구조 및 기능을 추출하고, 라벨을 붙이고, 부분적으로 마스킹했습니다. ESM3은 자연어 처리 모델에서 영감을 받은 마스킹 언어 모델링 목표를 사용하여 마스킹 위치를 예측하는 작업을 수행합니다.

이 작업을 수행하려면 ESM3은 진화 규모 데이터의 순서, 구조 및 기능 간의 연결을 깊이 이해하는 방법을 배워야 합니다. ESM3은 수십억 개의 단백질과 수십억 개의 매개변수로 확장할 때 진화를 시뮬레이션하는 방법을 학습합니다.

ESM3는 기존에 알려진 단백질 서열과 다른 기능성 단백질을 생성할 수 있습니다. 이 모델은 생물학적 정렬에 매우 민감하면서 복잡한 다중 모드 신호를 이해하고 이에 응답하는 능력이 특징입니다.

ESM3는 생물학적 정렬에 매우 민감합니다. 즉, 생물학적 진화 및 기능과 관련된 패턴을 정확하게 식별하고 따를 수 있습니다. 이러한 정렬을 통해 모델은 단백질이 생물학적 역할과 환경적 요구에 따라 어떻게 진화하는지 더 잘 이해할 수 있으며, 이를 통해 새로운 단백질을 설계할 때 자연의 생물학적 논리와 진화적 제약을 더 정확하게 반영할 수 있습니다.

메시지에 따라 새로운 단백질을 생성할 수 있습니다. ESM3의 다중 모드 추론 기능을 통해 과학자들은 전례 없는 수준의 제어로 새로운 단백질을 생성할 수 있습니다. 예를 들어, 모델은 구조, 서열 및 기능을 결합하여 플라스틱 폐기물 연구 목표를 분해하는 단백질 엔지니어인 폴리에틸렌 테레프탈레이트(PET)를 분해하는 효소인 PETase의 활성 부위에 대한 잠재적 비계를 제안하도록 유도될 수 있습니다.

더 어려운 생성 문제 해결

5억년에 걸친 진화 정보를 시뮬레이션하여 단백질 서열, 구조 및 기능을 동시에 추론하는 최초의 대규모 생물학적 모델입니다.

그림: ESM3 모델은 원자 배위 단서를 만족하는 단백질 생성 작업에 대해 평가됩니다. (출처: Paper)

ESM3의 까다로운 단백질 설계 작업을 해결하는 능력은 단백질 규모가 증가함에 따라 더욱 분명해집니다. 그러한 작업 중 하나는 원자 조정, 즉 순서는 멀리 떨어져 있지만 구조는 더 가까운 아미노산 원자의 위치를 ​​지정하는 신호를 기반으로 단백질을 설계하는 것입니다.

이는 기능성 단백질 설계에 중요한 구조 생성에서 원자 수준의 정확도를 달성하는 모델의 능력을 측정합니다. 이러한 작업을 해결하는 ESM3의 능력은 규모에 따라 증가합니다. 즉, ESM3은 규모의 함수로 더 어려운 세대 문제를 해결합니다.

ESM3은 LLM에 적용된 RLHF(Reinforcement Learning with Human Feedback)와 유사한 정렬 방법을 사용하여 피드백을 통해 더욱 개선되었습니다. ESM3은 인간으로부터 피드백을 받는 대신 자체적으로 개선하여 자체 세대의 품질에 대한 피드백을 제공할 수 있습니다. 습식 실험실 실험이나 기존 실험 데이터의 피드백을 사용하여 ESM3 생성을 생물학과 일치시킬 수도 있습니다.

5억년의 자연적 진화 거리에 걸쳐

연구원들은 ESM3을 사용하여 esmGFP라는 새로운 형광 단백질을 설계했습니다. 이는 알려진 가장 유사한 형광 단백질과 서열 상동성이 58%에 불과합니다. 이는 이전 인공에서는 극히 드물었습니다. 디자인.

ESM3가 형광 단백질 형성에 필요한 서열과 구조적 특징에 집중하고 염색체 반응을 촉매하도록 지시함으로써 모델은 일련의 반복을 통해 설계되었으며 궁극적으로 밝은 형광 효과를 갖는 esmGFP가 탄생했습니다.

5억년에 걸친 진화 정보를 시뮬레이션하여 단백질 서열, 구조 및 기능을 동시에 추론하는 최초의 대규모 생물학적 모델입니다.

그림: esmGFP를 알려진 형광 단백질과 비교했습니다. (출처: 논문)

이 단백질은 알려진 단백질과 순서가 크게 다를 뿐만 아니라 실험에서 일반적인 형광 단백질과 비슷한 형광 강도를 나타냅니다. 이는 5억년 이상에 걸친 자연적인 진화 거리에 해당합니다.

EvolutionaryScale은 비영리 회사입니다. 그들의 임무는 과학계와의 협력과 개방적이고 안전하며 책임감 있는 연구를 통해 인간의 건강과 사회에 도움이 되는 생물학을 이해하는 인공 지능을 개발하는 것입니다. ESM 프로젝트는 처음부터 코드 및 모델 출시를 통해 개방형 과학에 전념해 왔으며 팀은 계속해서 그렇게 하기 위해 최선을 다하고 있습니다.

이 회사는 2023년 7월에 설립되어 1억 4,200만 달러의 시드 자금 조달을 완료했으며 Amazon 및 NVIDIA와 협력에 도달했습니다.

ESM 관련 코드: https://github.com/evolutionaryscale/esm
논문 링크: https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf
관련 보고서:
https://www.evolutionaryscale.ai/blog/esm3-release
https://twitter.com/yleun/status/1805634811773571496
https://twitter .com/yecun/status/1805581310548697360
https://x.com/ebetica/status/1805599844246884677
https://www.businesswire.com/news/home/20240625717839/ ko/

위 내용은 5억년에 걸친 진화 정보를 시뮬레이션하여 단백질 서열, 구조 및 기능을 동시에 추론하는 최초의 대규모 생물학적 모델입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

더보기