>  기사  >  기술 주변기기  >  Meta AI는 6억 개가 넘는 메타게놈 단백질 구조 지도를 공개하고 2주 만에 150억 개의 언어 모델을 완성했습니다.

Meta AI는 6억 개가 넘는 메타게놈 단백질 구조 지도를 공개하고 2주 만에 150억 개의 언어 모델을 완성했습니다.

王林
王林앞으로
2023-04-16 11:37:021615검색

올해 DeepMind는 DNA 데이터베이스에 알려진 유기체의 거의 모든 단백질을 포함하는 약 2억 2천만 개의 단백질의 예측 구조를 발표했습니다. 이제 또 다른 기술 대기업인 Meta가 미생물이라는 또 다른 공백을 채우고 있습니다.

간단히 말하면 Meta는 AI 기술을 사용하여 박테리아 및 기타 아직 특성이 밝혀지지 않은 미생물로부터 약 6억 개의 단백질 구조를 예측합니다. 팀 리더인 Alexander Rives는 "이러한 단백질은 우리가 가장 잘 모르는 구조이며 매우 신비한 단백질입니다. 이러한 발견은 생물학에 대한 깊은 이해에 대한 잠재력을 제공한다고 생각합니다."라고 말했습니다.

보통 언어 모델은 대량의 텍스트 교육을 받았습니다. 메타 언어 모델을 단백질에 적용하기 위해 Rives와 동료들은 서로 다른 문자로 표시되는 20개의 아미노산으로 구성된 알려진 단백질 서열을 입력으로 사용했습니다. 그런 다음 네트워크는 특정 비율의 아미노산을 가리면서 자동으로 단백질을 완성하는 방법을 학습했습니다.

Meta는 이 네트워크를 ESMFold라고 명명했습니다. ESMFold의 예측 정확도는 AlphaFold만큼 좋지는 않지만 구조 예측에서는 AlphaFold보다 약 60배 빠릅니다. 이 속도는 단백질 구조 예측을 더 큰 데이터베이스로 확장할 수 있음을 의미합니다.

Meta AI는 6억 개가 넘는 메타게놈 단백질 구조 지도를 공개하고 2주 만에 150억 개의 언어 모델을 완성했습니다.

  • 논문 주소: https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2
  • 프로젝트 주소: https://github.com/facebookresearch/esm

이제 Meta는 테스트로서 토양, 해수, 인간 내장, 피부 및 기타 미생물 서식지를 포함한 환경에서 유래한 메타게놈 DNA 데이터베이스에 모델을 적용하기로 결정했습니다. Meta AI는 6억 개 이상의 단백질을 포함하는 ESM Metagenomic Atlas의 출시를 발표합니다. 이는 단백질 우주의 "암흑 물질"에 대한 최초의 종합적인 시각입니다. 이는 또한 기존의 단백질 구조 데이터베이스보다 3배 더 큰 고해상도 예측 구조에 대한 최대 규모의 데이터베이스이며 메타게놈 단백질에 대한 포괄적이고 대규모 범위를 제공하는 최초의 데이터베이스입니다.

Meta AI는 6억 개가 넘는 메타게놈 단백질 구조 지도를 공개하고 2주 만에 150억 개의 언어 모델을 완성했습니다.

Meta 팀은 단 2주 만에 총 6억 1700만 개 이상의 단백질 구조를 예측했습니다. Rives는 모델의 기본 코드와 마찬가지로 예측이 무료이며 누구나 사용할 수 있다고 말했습니다.

Meta AI는 6억 개가 넘는 메타게놈 단백질 구조 지도를 공개하고 2주 만에 150억 개의 언어 모델을 완성했습니다.

인터랙티브 버전 주소: https://esmatlas.com/explore?at=1%2C1%2C21.999999344348925

예를 들어, 아래 그림은 ESMFold의 PET 효소 예측을 보여줍니다.

Meta AI는 6억 개가 넘는 메타게놈 단백질 구조 지도를 공개하고 2주 만에 150억 개의 언어 모델을 완성했습니다.

소개

우리 모두 알고 있듯이 단백질은 유전자에 의해 암호화된 복잡하고 역동적인 분자이며 주로 생명의 기본 과정을 담당합니다. 단백질은 생물학에서 놀라운 역할을 합니다. 예를 들어, 인간 눈의 간상체와 원뿔은 빛을 감지하여 외부 세계를 볼 수 있습니다. 식물의 복잡한 분자는 빛 에너지를 분자로 변환합니다. 인간의 근육을 움직이게 하는 "모터", 플라스틱을 분해하는 효소, 질병으로부터 우리를 보호하는 항체 등은 모두 단백질입니다.

1998년 위스콘신대학교 식물병리학과의 조 핸델스만(Jo Handelsman)이 처음으로 환경에 존재하는 유전자 세트를 단일 게놈으로 연구하고 분석하는 데서 유래한 메타지노믹스(Metagenomics)라는 개념을 처음 제안했습니다. 영어로 of와 Macro는 Meta-로, 위안으로도 번역됩니다.

Metagenomics는 NCBI, European Bioinformatics Institute 및 Joint Genome Institute에서 처음으로 분류한 과학에 새로운 수십억 개의 단백질 서열과 공공 프로젝트에서 편집한 기타 대규모 데이터베이스를 공개합니다.

메타유전체 데이터베이스(수억 개의 단백질 포함)에서 단백질 구조에 대한 최초의 포괄적인 보기를 생성하기 위해 대규모 언어 모델을 활용하는 Meta AI가 개발한 새로운 단백질 접힘 방법입니다. 메타는 언어 모델이 기존 SOTA 단백질 구조 예측 방법보다 단백질의 원자 수준의 3차원 구조를 60배 빠르게 예측할 수 있다는 사실을 발견했습니다. 이러한 발전은 단백질 구조 이해의 새로운 시대를 가속화하는 데 도움이 될 것이며 유전자 서열 분석 기술로 분류되는 수십억 개의 단백질 구조를 처음으로 이해할 수 있게 될 것입니다.

자연의 숨겨진 세계 열기: 메타게놈 구조 공간에 대한 최초의 포괄적인 시각

우리는 유전자 서열 분석의 발전으로 수십억 개의 메타게놈 단백질 서열 목록을 작성하는 것이 가능해졌다는 것을 알고 있습니다. 그러나 수십억 개의 단백질의 3D 구조를 실험적으로 결정하는 것은 단일 단백질을 탐지하는 데 몇 주 또는 몇 년이 걸릴 수 있는 X선 결정학과 같이 시간 집약적인 실험실 기술의 범위를 훨씬 뛰어넘습니다. 전산 접근법은 실험 기술로는 불가능한 메타게놈 단백질에 대한 통찰력을 제공할 수 있습니다.

ESM 메타게놈 매핑을 통해 과학자들은 수억 개의 단백질 규모로 메타게놈 단백질의 구조를 검색하고 분석할 수 있습니다. 이는 이전에 특성화되지 않은 구조를 식별하고 먼 진화 관계를 검색하며 의학 및 기타 응용 분야에 사용할 수 있는 새로운 단백질을 발견하는 데 도움이 될 수 있습니다.

다음은 현재 알려진 구조를 가진 단백질과 유사성을 보여주는 수만 개의 높은 신뢰도 예측이 포함된 지도입니다. 그리고 처음으로 이미지는 전혀 알려지지 않았던 훨씬 더 넓은 단백질 구조 공간 영역을 보여줍니다.

Meta AI는 6억 개가 넘는 메타게놈 단백질 구조 지도를 공개하고 2주 만에 150억 개의 언어 모델을 완성했습니다.

생물학적 언어 읽는 법 배우기

아래 그림에 표시된 것처럼 ESM-2 언어 모델은 진화 과정에서 서열에 의해 가려진 아미노산을 예측하도록 훈련되었습니다. Meta AI는 훈련 결과, 모델 내부 상태에서 단백질 구조에 대한 정보가 나타난다는 사실을 발견했습니다. 모델이 시퀀스에만 학습되었기 때문에 이는 정말 놀라운 일입니다.

Meta AI는 6억 개가 넘는 메타게놈 단백질 구조 지도를 공개하고 2주 만에 150억 개의 언어 모델을 완성했습니다.

종이나 편지의 텍스트처럼 단백질도 일련의 문자로 기록될 수 있습니다. 각 문자는 20가지 표준 화학 원소(아미노산) 중 하나에 해당하며, 각각은 서로 다른 특성을 가지며 단백질의 구성 요소입니다. 이러한 빌딩 블록은 천문학적으로 다른 방식으로 결합될 수 있습니다. 예를 들어 200개의 아미노산으로 구성된 단백질의 경우 가능한 서열은 20^200개이며 이는 눈에 보이는 우주에 있는 원자 수보다 많습니다. 각 서열은 3D 모양으로 접히며(그러나 모든 서열이 일관된 구조로 접히는 것은 아니며, 많은 서열이 무질서한 형태로 접히는 경우가 있음), 단백질의 생물학적 기능을 크게 결정하는 것은 바로 이 모양입니다.

생물학적 언어를 읽는 법을 배우는 것은 큰 도전을 가져옵니다. 단백질 서열과 텍스트 구절 모두 문자로 기록될 수 있지만, 둘 사이에는 깊고 근본적인 차이점이 있습니다. 단백질 서열은 물리 법칙에 따라 복잡한 3D 모양으로 접히는 분자의 화학 구조를 설명합니다.

단백질 서열에는 단백질 접힘 구조에 대한 정보를 전달하는 통계적 패턴이 포함되어 있습니다. 예를 들어, 단백질의 두 위치가 공동 진화하는 경우, 즉 특정 아미노산이 일반적으로 다른 위치의 특정 아미노산과 쌍을 이루는 한 위치에서 발생하는 경우 이는 두 위치가 다음 위치에 있음을 의미할 수 있습니다. 접힌 구조 상호 작용. 이는 진화가 접힌 구조에서 함께 맞는 아미노산을 선택해야 하는 직소 퍼즐의 두 조각과 유사합니다. 이는 결국 우리가 단백질의 서열 패턴을 관찰함으로써 단백질의 구조를 추론할 수 있다는 것을 의미합니다.

ESM은 AI를 사용하여 이러한 패턴을 읽는 방법을 배웁니다. 2019년 Meta AI는 언어 모델이 구조 및 기능과 같은 단백질의 속성을 학습한다는 증거를 제공했습니다. Meta AI는 가면 언어 모델링이라는 자기 지도 학습 형태를 통해 수백만 개의 천연 단백질 서열에 대한 언어 모델을 훈련했습니다. 이 방법을 사용하면 모델은 "_을 하든 안 하든, 즉 _____입니다"와 같이 텍스트 단락의 공백을 올바르게 채워야 합니다.

이후 Meta AI는 단백질 서열의 공백을 메우기 위해 언어 모델을 훈련시킵니다. 그들은 이 훈련 중에 단백질 구조와 기능에 대한 정보가 나타난다는 것을 발견했습니다. 2020년에 Meta는 과학자들이 코로나19의 진화를 예측하고 질병의 유전적 원인을 발견하는 데 도움을 주는 것을 포함하여 다양한 응용 분야를 위해 SOTA 단백질 언어 모델인 ESM1b를 출시했습니다.

이제 Meta AI는 이 접근 방식을 확장하여 차세대 단백질 언어 모델 ESM-2를 만들었습니다. ESM-2는 150억 개의 매개변수로 현재까지 가장 큰 단백질 언어 모델입니다. 그들은 모델 매개변수가 800만에서 150억으로 확장되었을 때 내부 표현에 정보가 나타나 원자 분해능에서 3D 구조 예측이 가능하다는 것을 발견했습니다.

단백질 접힘에서 100배 가속도 달성

아래 그림에서 모델을 확대하면 고해상도 단백질 구조가 나타납니다. 동시에 모델의 규모가 확장됨에 따라 단백질 구조의 원자 해상도 이미지에 새로운 세부 사항이 나타납니다.

Meta AI는 6억 개가 넘는 메타게놈 단백질 구조 지도를 공개하고 2주 만에 150억 개의 언어 모델을 완성했습니다.

현재 SOTA 계산 도구를 사용하면 주요 연구 기관의 자원을 사용하더라도 현실적인 시간 규모로 수억 개의 단백질 서열 구조를 예측하는 데 수년이 걸릴 수 있습니다. 따라서 메타게놈 규모의 예측을 위해서는 예측 속도의 획기적인 발전이 중요합니다.

Meta AI는 단백질 서열의 언어 모델을 사용하면 구조 예측 속도가 최대 60배까지 크게 향상된다는 사실을 발견했습니다. 이는 단 몇 주 만에 전체 메타게놈 데이터베이스에 대한 예측을 수행하기에 충분하며 현재 게시된 데이터베이스보다 훨씬 더 큰 데이터베이스로 확장할 수 있습니다. 실제로 이 새로운 구조 예측 기능은 약 2,000개의 GPU 클러스터에서 단 2주 만에 6억 개가 넘는 메타게놈 단백질의 서열을 예측할 수 있었습니다.

또한 현재 SOTA 구조 예측 방법에서는 관련 서열을 식별하기 위해 대규모 단백질 데이터베이스를 검색해야 합니다. 이러한 방법은 실제로 구조 관련 패턴을 추출할 수 있도록 진화적으로 관련된 전체 시퀀스 세트를 입력으로 필요합니다. Meta AI의 ESM-2 언어 모델은 단백질 서열에 대한 훈련 중에 이러한 진화 패턴을 학습하여 단백질 서열에서 직접 3D 구조에 대한 고해상도 예측을 가능하게 합니다.

아래 그림은 ESM-2 언어 모델을 사용한 단백질 접힘을 보여줍니다. 왼쪽에서 오른쪽으로 화살표는 언어 모델에서 접이식 트렁크, 구조 모듈까지 네트워크의 정보 흐름을 보여주고 최종적으로 3D 좌표와 신뢰도를 출력합니다.

Meta AI는 6억 개가 넘는 메타게놈 단백질 구조 지도를 공개하고 2주 만에 150억 개의 언어 모델을 완성했습니다.

자세한 내용은 원문을 참고해주세요.

블로그 링크: https://ai.facebook.com/blog/단백질-folding-esmfold-metagenomics/

위 내용은 Meta AI는 6억 개가 넘는 메타게놈 단백질 구조 지도를 공개하고 2주 만에 150억 개의 언어 모델을 완성했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제