>기술 주변기기 >일체 포함 >끝없는 가능성 NVIDIA Generative AI 모델로 단백질 합성 가속화

끝없는 가능성 NVIDIA Generative AI 모델로 단백질 합성 가속화

王林
王林앞으로
2023-04-13 16:07:03903검색

지난 2년 동안 머신러닝은 단백질 구조 예측에 혁명을 일으켰습니다. 이제 인공지능은 단백질 디자인 분야에 새로운 혁명을 일으켰습니다.

AI가 등장한 이후 많은 과학자들이 이를 활용하여 단백질 연구를 수행하는 추세에 동참했습니다. 생물학자들은 기계 학습을 사용하면 단 몇 초 만에 단백질 분자를 생성할 수 있다는 사실을 발견했습니다. 과거에는 이 시간이 몇 달이었을 수도 있습니다.

최근 스타트업 Evozyne은 NVIDIA가 제공하는 사전 훈련된 AI 모델을 사용하여 의료 및 청정 에너지 분야에서 상당한 잠재력을 지닌 두 가지 단백질을 만들었습니다. 단백질 중 하나는 선천성 질환을 치료하는 데 사용되고, 다른 하나는 지구 온난화를 줄이기 위해 이산화탄소를 소비하는 데 사용됩니다.

无限的可能性 NVIDIA生成式AI模型加速合成蛋白质

이런 방식으로 과학자들은 NVIDIA BioNeMo를 사용하여 고품질 단백질을 생성할 수 있는 대규모 언어 모델을 만들어 약물 개발 속도를 높이고 보다 지속 가능한 환경을 조성하는 데 도움을 줍니다.

약물 발견을 가속화하는 새로운 방법

Evozyne의 공동 창립자이자 논문의 공동 저자인 Andrew Ferguson은 다음과 같이 말했습니다. "기쁜 점은 1차 라운드에서 이 AI 모델에 의해 생성된 합성 단백질이 자연적으로 발생하는 단백질과 같습니다. 모델이 자연의 설계 규칙을 학습했음을 나타냅니다.”

Evozyne은 NVIDIA의 ProtT5를 사용합니다. ProtT5는 의료 AI 모델 생성을 위한 소프트웨어 프레임워크이자 서비스인 NVIDIA BioNeMo의 일부인 Transformer 모델입니다.

화학 및 기계 학습 분야를 연구하는 분자 엔지니어 Ferguson은 다음과 같이 말했습니다. "BioNeMo는 매우 강력하며 모델을 훈련한 다음 해당 모델을 사용하여 매우 저렴한 비용으로 작업을 실행할 수 있습니다. 수백만 개의 시퀀스를 생성합니다. 이 모델은 Evozyne의 요구 사항을 충족하는 새로운 단백질을 조립하는 방법을 예측합니다."

이 모델은 Evovyne ProT-VAE 파이프라인의 핵심입니다. Evozyne의 ProT-VAE 파이프라인은 NVIDIA BioNeMo의 강력한 Transformer 모델과 VAE(변형 자동 인코더)를 결합합니다.

그는 "몇 년 전만 해도 변형 자동 인코더와 결합된 대규모 언어 모델을 사용하여 단백질을 설계할 수 있다는 사실을 아무도 눈치 채지 못했습니다."

반면 Evozyne의 방법은 한 라운드만 거치면 단백질의 절반 이상을 변경할 수 있습니다. 단백질의 아미노산. 이는 수백 개의 돌연변이에 해당합니다.

Evozyne 데이터 과학자 Joshua Moller는 다음과 같이 말했습니다. "작업을 여러 GPU로 확장하여 훈련 속도를 높입니다.

이렇게 하면 대규모 AI 모델을 훈련하는 시간이 몇 달에서 일주일로 단축됩니다. 따라서 다른 방법으로는 불가능했을 모델을 훈련할 수 있습니다. 훈련 가능한 매개변수가 수십억 개에 달하는 일부와 같은 훈련을 수행합니다. ”

혁명적인 AI 모델

전통적인 단백질 공학 설계 방법, 즉 방향성 진화는 일반적으로 한 번에 몇 개의 아미노산의 순서만 변경하는 느리고 계획되지 않은 접근 방식을 사용합니다. 기계 학습은 가능한 대규모 연구에 사용됩니다.

BioNeMo는 슈퍼컴퓨팅 규모의 대규모 애플리케이션을 훈련하고 배포하기 위해 NVIDIA NeMo Megatron을 기반으로 구축된 AI 지원 약물 개발 클라우드 서비스 및 프레임워크입니다. 사전 훈련된 LLM, 단백질, DNA, RNA 및 화학에 대한 일반적인 파일 형식을 기본적으로 지원하며 데이터 로더를 사용하여 SMILES(분자 구조용) 및 FASTA(아미노산 및 뉴클레오티드 서열용)에 사용할 수 있습니다. BioNeMo, 과학자들은 UniRef50 및 ZINC 데이터베이스용 사전 훈련된 모델, 자동 다운로더 및 전처리기를 사용하여 다양한 모델, 임베딩 및 출력을 쉽게 시작할 수 있습니다. 또한 감독되지 않은 사전 훈련을 통해 단백질 구조를 예측하는 학습된 임베딩을 신속하게 생성하기 위해 레이블이 지정된 데이터가 필요하지 않습니다. , 기능, 세포 위치, 수용성, 막 결합, 저장 영역 및 가변 영역 등

그 중 MegaMolBART는 14억 개의 분자(SMILES 문자열)로 학습된 생성 화학 모델로 다양한 용도로 사용할 수 있습니다. BioNeMo는 ProtT5 및 ESM1.-85M 및 기타 Transformer 기반 단백질 언어 모델을 제공합니다.

BioNeMo는 새로운 단백질 서열의 3D 구조를 예측하기 위한 딥 러닝 모델인 OpenFold도 제공합니다.

NVIDIA의 Transformer 모델은 다음과 같습니다. 수백만 개의 단백질 아미노산 서열. 이 모델은 신경망에서 사용하는 기술을 사용하여 텍스트를 이해하고 자연이 단백질 아미노산 서열을 구성하는 방법을 학습합니다.

미래를 살펴보면 AI를 사용하여 단백질 공학을 가속화할 전망은 매우 밝습니다. 기존 단백질의 경우 에너지가 없거나 고온과 같은 극한 조건에서도 더욱 안정적이고 기능 중 하나를 달성할 수 있습니다.

또한 인공지능을 활용해 골격에 맞게 아미노산 서열을 설계할 수도 있는데, 이를 통해 효소, 항체 등 특정 단백질의 안정성을 향상시킬 수 있습니다. 인공지능 기술은 미래에는 오염을 줄이고 환경을 개선하는 데 사용할 수 있는 새로운 생물학적 물질을 포함하여 점점 더 유용한 단백질을 설계하는 데 매우 중요한 역할을 할 수 있습니다. .

위 내용은 끝없는 가능성 NVIDIA Generative AI 모델로 단백질 합성 가속화의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제