>기술 주변기기 >일체 포함 >Meta는 150억 개의 매개변수 언어 모델이 처음부터 '새로운' 단백질을 설계하는 방법을 학습할 수 있게 해줍니다! LeCun: 놀라운 결과

Meta는 150억 개의 매개변수 언어 모델이 처음부터 '새로운' 단백질을 설계하는 방법을 학습할 수 있게 해줍니다! LeCun: 놀라운 결과

王林
王林앞으로
2023-04-13 19:22:011545검색

AI가 바이오의학 분야에서 또 한 번 새로운 발전을 이루었습니다. 네, 이번에는 단백질에 관한 것입니다.

차이점은 과거에는 AI가 단백질 구조를 발견했지만 이번에는 AI가 스스로 단백질 구조를 설계하고 생성하기 시작했다는 점입니다. 과거에는 '검사'였다면 지금은 '크리에이터'로 진화했다고 해도 과언이 아니다.

이번 연구에 참여하는 사람은 메타 AI 연구소 산하 FAIR의 단백질 연구팀입니다. 페이스북에서 수년 간 일한 수석 AI 과학자인 얀 르쿤(Yann LeCun) 역시 팀의 결과를 즉각 전달하고 높이 평가했다.

Meta는 150억 개의 매개변수 언어 모델이 처음부터 새로운 단백질을 설계하는 방법을 학습할 수 있게 해줍니다! LeCun: 놀라운 결과

BioRxiv에 실린 이 두 논문은 단백질 설계/생성 분야에서 Meta의 "놀라운" 성과입니다. 시스템은 시뮬레이션된 어닐링 알고리즘을 사용하여 원하는 모양을 따르거나 대칭과 같은 제약 조건을 충족하는 방식으로 접히는 아미노산 서열을 찾습니다.

Meta는 150억 개의 매개변수 언어 모델이 처음부터 새로운 단백질을 설계하는 방법을 학습할 수 있게 해줍니다! LeCun: 놀라운 결과

ESM2, 원자 계층 구조 예측을 위한 모델

맞추셨죠, 이 연구의 기초와 이 두 논문은 얼마 전 Meta가 제안한 단백질 예측 및 발견을 위한 대규모 언어 모델입니다:ESM2 .

150억 개의 매개변수를 가진 대형 모델입니다. 모델이 8백만에서 1,500만 개의 매개변수로 확장됨에 따라 내부 표현에서 나오는 정보는 원자 분해능에서 3차원 구조 예측을 가능하게 합니다.

Meta는 150억 개의 매개변수 언어 모델이 처음부터 새로운 단백질을 설계하는 방법을 학습할 수 있게 해줍니다! LeCun: 놀라운 결과

대규모 언어 모델을 활용하여 진화 패턴을 학습함으로써 정확한 구조 예측이 단백질 서열에서 직접 처음부터 끝까지 생성될 수 있으며 정확도를 유지하면서 현재의 최첨단 방법보다 빠르게 예측할 수 있습니다. 60 타임스.

실제로 Meta는 이 새로운 구조 예측 기능의 도움으로 약 2000개의 GPU 시퀀스 클러스터를 사용하여 단 2주 만에 맵에서 6억 개 이상의 메타게놈 단백질을 예측했습니다.

두 논문의 교신저자인 Meta AI의 Alex Rives는 ESM2 언어 모델이 천연 단백질의 범위를 넘어서는 다양성을 보여줄 뿐만 아니라 복잡한 모듈식 단백질 구조를 프로그래밍 방식으로 생성할 수 있다고 말했습니다.

단백질 설계 "전문 프로그래밍 언어"

일꾼이 일을 잘하려면 먼저 도구를 갈고 닦아야 합니다.

단백질 설계와 생성을 더욱 효율적으로 만들기 위해 연구자들은 이전 결과(주로 ESM2)를 기반으로 단백질 설계를 위한 고급 프로그래밍 언어도 개발했습니다.

논문 주소: https://www.biorxiv.org/content/10.1101/2022.12.21.521526v1

이 연구의 주요 리더 중 하나인 논문 "A high-level 프로그래밍" "For Generative Protein Design"의 교신 저자인 Alex Rives는 소셜 미디어에서 이 결과가 복잡한 모듈식 구조를 가진 대규모 단백질 및 복합체 생성을 프로그래밍하는 것을 가능하게 한다고 말했습니다.

논문 저자 중 한 명이자 스탠포드 대학교 연구원인 Brian Hie도 트위터를 통해 이 기사의 주요 연구 아이디어와 결과를 설명했습니다.

전반적으로 이 기사에서는 생성적 기계 학습이 어떻게 단백질 설계를 위한 고급 프로그래밍 언어로 제어되는 복잡한 단백질의 모듈식 설계를 가능하게 하는지 설명합니다.

Meta는 150억 개의 매개변수 언어 모델이 처음부터 새로운 단백질을 설계하는 방법을 학습할 수 있게 해줍니다! LeCun: 놀라운 결과

그는 기사의 주요 아이디어가 순차적 또는 구조적 빌딩 블록을 사용하는 것이 아니라 모듈성을 더 높은 추상화 수준에 배치하고 블랙박스 최적화를 통해 특정 디자인을 생성하도록 하는 것이라고 말했습니다. 최적화의 모든 단계에서 원자 수준 구조가 예측됩니다.

Meta는 150억 개의 매개변수 언어 모델이 처음부터 새로운 단백질을 설계하는 방법을 학습할 수 있게 해줍니다! LeCun: 놀라운 결과

이전의 단백질 설계 방법과 비교하여 이 새로운 아이디어는 디자이너가 원자 수준 좌표 지정부터 단백질에 대한 추상적인 설계 계획에 이르기까지 임의의 미분 불가능한 제약 조건을 지정할 수 있는 방법을 만듭니다. 대칭 디자인.

제약조건이 모듈화되는 것이 프로그래밍 가능성에 중요합니다. 예를 들어 아래 그림은 두 가지 수준의 대칭 프로그래밍에 동일한 제약 조건이 계층적으로 적용되는 상황을 보여줍니다.

이러한 제약 조건은 쉽게 결합할 수 있습니다. 예를 들어, 원자 좌표에 대한 제약 조건은 대칭에 대한 제약 조건과 결합될 수 있습니다. 또는 다양한 형태의 2단계 대칭을 결합하여 비대칭 복합 구조를 프로그래밍할 수 있습니다.

Meta는 150억 개의 매개변수 언어 모델이 처음부터 새로운 단백질을 설계하는 방법을 학습할 수 있게 해줍니다! LeCun: 놀라운 결과

Brian Hie는 이 성과가 보다 제어 가능하고 규칙적이며 표현력이 풍부한 단백질 디자인을 향한 한 단계라고 믿습니다. 그는 또한 공동 노력을 해준 Meta AI와 다른 협력자들에게도 감사를 표했습니다.

단백질 디자인을 "건물을 짓는 것처럼" 만듭니다.

논문에서 연구자들은 단백질 디자인이 사용된 추상 개념의 기본 세트가 제공하는 규칙성, 단순성 및 프로그래밍 가능성으로부터 이익을 얻을 것이라고 믿습니다. 건설, 기계, 회로 및 컴퓨터 소프트웨어 공학 분야.

그러나 이러한 인공 창조물과 달리 단백질은 서열의 국소 구조가 전체 환경과 얽혀 있기 때문에 쉽게 재구성되는 부분으로 분해될 수 없습니다. 고전적인 ab initio 단백질 설계는 기본 구조 빌딩 블록 세트를 식별한 다음 이를 고차 구조로 조립하려고 시도합니다.

마찬가지로 전통적인 단백질 공학은 종종 천연 단백질 서열의 단편이나 도메인을 하이브리드 키메라로 재조합합니다. 그러나 기존 접근 방식은 아직 진정한 프로그래밍 가능성에 필요한 높은 조합 복잡성을 달성할 수 없습니다.

이 문서는 현대 생성 모델이 새로운 수준의 조합 복잡성에서 모듈화 및 프로그래밍 가능성이라는 고전적인 목표를 달성한다는 것을 보여줍니다. 모듈성과 프로그래밍 가능성을 더 높은 수준의 추상화에 적용한 생성 모델은 인간의 직관과 특정 시퀀스 및 구조의 생성 사이의 격차를 해소합니다.

이 경우 단백질 설계자는 상위 수준 지침만 재조립하면 되며, 이러한 지침을 만족하는 단백질을 얻는 작업은 생성 모델에 배치됩니다.

연구원들은 설계자가 직관적이고 모듈적이며 계층적인 절차를 지정할 수 있는 생성 단백질 설계용 프로그래밍 언어를 제안합니다. 상위 수준 프로그램은 생성 모델을 통해 하위 수준 시퀀스 및 구조로 변환될 수 있습니다. 이 접근 방식은 단백질의 구조 정보와 설계 원리를 학습할 수 있는 단백질 언어 모델의 발전을 활용합니다.

Meta는 150억 개의 매개변수 언어 모델이 처음부터 새로운 단백질을 설계하는 방법을 학습할 수 있게 해줍니다! LeCun: 놀라운 결과

본 연구의 구체적인 구현은 위 그림에 표시된 것처럼 에너지 기반 발전 모델을 기반으로 합니다.

먼저, 단백질 설계자는 계층적으로 조직된 제약 조건 세트로 구성된 상위 수준 프로그램을 지정합니다(그림 A).

그런 다음 이 프로그램은 임의적이고 구별할 수 없는 제약 조건과의 호환성을 평가하는 에너지 함수로 컴파일됩니다(그림 B).

원자 수준 구조 예측(언어 모델을 통해 가능)을 에너지 함수에 통합하여 구조적 제약 조건을 적용합니다. 이 접근 방식은 광범위하고 복잡한 설계를 생성할 수 있습니다(그림 C).

Generate 단백질 서열 처음부터

"Language models Generalize Beyond Natural Proteins"라는 논문에서 MetaAI 팀의 저자인 Tom Sercu는 이 작업이 주로 두 가지 작업을 완료했다고 말했습니다.

Meta는 150억 개의 매개변수 언어 모델이 처음부터 새로운 단백질을 설계하는 방법을 학습할 수 있게 해줍니다! LeCun: 놀라운 결과

논문 주소: https://www.biorxiv.org/content/10.1101/2022.12.21.521521v1

첫 번째 항목은 주어진 메인 체인 구조에 대한 시퀀스를 설계하는 것입니다. 언어 모델을 사용하면 모든 목표에 대한 성공적인 설계가 19/20의 성공률로 얻어지는 반면, 언어 모델을 사용하지 않는 시퀀스 설계의 성공률은 1/20에 불과합니다.

Meta는 150억 개의 매개변수 언어 모델이 처음부터 새로운 단백질을 설계하는 방법을 학습할 수 있게 해줍니다! LeCun: 놀라운 결과

두 번째 과제는 자유로운 세대입니다. 연구팀은 언어 모델로 정의된 에너지 환경에서 (서열, 구조) 쌍을 샘플링하는 새로운 방법을 제안합니다.

Meta는 150억 개의 매개변수 언어 모델이 처음부터 새로운 단백질을 설계하는 방법을 학습할 수 있게 해줍니다! LeCun: 놀라운 결과

다른 토폴로지를 통해 샘플링하면 실험 성공률이 다시 높아집니다(최대 71/129 또는 55%).

예측된 단백질 구조가 천연 단백질의 한계를 뛰어넘는다는 것을 증명하기 위해 연구팀은 알려진 모든 천연 단백질을 포괄하는 서열 데이터베이스에서 언어 모델에 의해 생성된 단백질 서열을 검색했습니다.

Meta는 150억 개의 매개변수 언어 모델이 처음부터 새로운 단백질을 설계하는 방법을 학습할 수 있게 해줍니다! LeCun: 놀라운 결과

결과에 따르면 둘 사이에는 일치하는 관계가 없으며 자연 시퀀스와 언어 모델에서 생성되는 예측 구조가 다릅니다.

Sercu는 ESM2 단백질 언어 모델만 사용하여 단백질 구조를 설계할 수 있다고 밝혔습니다. 연구팀은 228개의 단백질을 실험적으로 테스트했는데, 성공률은 67%였습니다!

Meta는 150억 개의 매개변수 언어 모델이 처음부터 새로운 단백질을 설계하는 방법을 학습할 수 있게 해줍니다! LeCun: 놀라운 결과

Sercu는 서열로만 훈련된 단백질 언어 모델이 서열과 구조를 연결하는 깊은 패턴을 학습할 수 있으며 자연스럽게 탐구되는 설계 공간을 넘어 처음부터 단백질을 설계하는 데 사용될 수 있다고 믿습니다.

단백질 생산의 심층 문법 탐색

논문에서 메타 연구자들은 언어 모델이 시퀀스로만 훈련되었지만 모델은 여전히 ​​단백질의 심층 문법 구조를 설계할 수 있다고 밝혔습니다. 천연 단백질.

그림 A의 사각형이 모든 단백질 서열로 구성된 공간을 나타낸다면 천연 단백질 서열은 회색 부분으로 그 일부를 덮고 있습니다. 자연스러운 시퀀스 이상을 일반화하려면 언어 모델에 기본 디자인 패턴에 대한 액세스가 필요합니다.

Meta는 150억 개의 매개변수 언어 모델이 처음부터 새로운 단백질을 설계하는 방법을 학습할 수 있게 해줍니다! LeCun: 놀라운 결과

연구팀이 해야 할 일은 두 가지입니다. 첫째, 처음부터 단백질 백본을 설계하고, 둘째, 백본을 기반으로 처음부터 단백질 서열을 생성합니다.

연구팀은 마스크 언어 모델을 사용하여 ESM2를 훈련시켰으며, 훈련 내용에는 진화 과정에서 수백만 개의 다양한 천연 단백질이 포함되었습니다.

Meta는 150억 개의 매개변수 언어 모델이 처음부터 새로운 단백질을 설계하는 방법을 학습할 수 있게 해줍니다! LeCun: 놀라운 결과

언어 모델이 학습된 후 모델의 내부 주의 상태에서 단백질의 3차 구조에 대한 정보를 확인할 수 있습니다. 그 후, 연구자들은 선형 투영을 통해 단백질 서열의 한 쌍의 위치에 대한 관심을 잔기 사이의 거리 분포로 전환했습니다.

Meta는 150억 개의 매개변수 언어 모델이 처음부터 새로운 단백질을 설계하는 방법을 학습할 수 있게 해줍니다! LeCun: 놀라운 결과

단백질 구조를 예측하는 언어 모델의 능력은 천연 단백질 서열의 기초가 되는 더 깊은 구조적 서열과 모델을 통해 학습할 수 있는 심층적인 문법이 있을 가능성을 가리킨다고 연구진은 말했습니다. .

이 결과는 진화 과정에서 수많은 단백질 서열에 생물학적 구조와 기능이 포함되어 단백질의 설계 구조가 드러남을 보여줍니다. 이 구성은 단백질 서열의 기계 모델을 학습함으로써 완전히 재현 가능합니다.

Meta는 150억 개의 매개변수 언어 모델이 처음부터 새로운 단백질을 설계하는 방법을 학습할 수 있게 해줍니다! LeCun: 놀라운 결과

6번의 실험을 통해 언어 모델로 성공적으로 예측한 단백질 구조

단백질 전반에 걸친 심층 문법의 존재는 상충되는 것처럼 보이는 두 가지 결과 세트를 설명합니다. 천연 단백질에 대한 이해는 훈련 데이터에 따라 다릅니다. 결과적으로 언어 모델은 알려진 천연 단백질 계열을 넘어서 예측하고 탐색할 수 있습니다.

단백질 언어 모델의 스케일링 법칙이 계속 유효하다면 AI 언어 모델의 생성 능력은 계속해서 향상될 것으로 예상할 수 있습니다.

연구팀은 단백질 구조의 기본 문법이 존재하기 때문에 기계 모델이 더 희귀한 단백질 구조를 학습함으로써 모델의 예측 능력과 탐색 공간이 확장될 것이라고 밝혔습니다.

1년 전 DeepMind의 오픈소스 AlphaFold2가 Nature 및 Science 분야에 출시되어 생물학 및 AI 학계를 압도했습니다.

1년이 지나면서 인공지능 예측 모델이 등장하여 단백질 구조 분야의 공백을 메우는 경우가 많습니다.

인간이 인공지능에 생명을 불어넣는다면, 인공지능은 인간이 생명의 신비를 완성하기 위한 마지막 퍼즐 조각일까요?

위 내용은 Meta는 150억 개의 매개변수 언어 모델이 처음부터 '새로운' 단백질을 설계하는 방법을 학습할 수 있게 해줍니다! LeCun: 놀라운 결과의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제