>  기사  >  기술 주변기기  >  25개의 분자 설계 알고리즘을 물리치고 Georgia Tech, 토론토 대학, Cornell이 대규모 언어 모델 MOLLEO를 제안했습니다.

25개의 분자 설계 알고리즘을 물리치고 Georgia Tech, 토론토 대학, Cornell이 대규모 언어 모델 MOLLEO를 제안했습니다.

WBOY
WBOY원래의
2024-07-02 01:07:361124검색

25개의 분자 설계 알고리즘을 물리치고 Georgia Tech, 토론토 대학, Cornell이 대규모 언어 모델 MOLLEO를 제안했습니다.

저자 | Wang Haorui, Georgia Institute of Technology

편집자 | ScienceAI

최적화 문제로서의 분자 발견은 최적화 목표가 미분 가능하지 않을 수 있기 때문에 상당한 계산 문제를 야기합니다. 진화 알고리즘(EA)은 무작위 돌연변이 및 교차를 통해 화학적 공간을 횡단하여 분자 발견에서 블랙박스 표적을 최적화하는 데 일반적으로 사용되지만 이로 인해 표적 평가가 광범위하고 비용이 많이 듭니다.

이 연구에서 조지아 공과대학, 토론토 대학, 코넬 대학의 연구원들은 미리 훈련된 LLM(대형 언어 모델)과 화학적 지식을 진화론적 지식과 통합하는 MOLLEO(분자 언어 강화 진화 최적화)를 제안하기 위해 협력했습니다. 최적화 알고리즘에서는 진화 알고리즘의 분자 최적화 기능이 크게 향상되었습니다.

"대형 언어 모델을 사용한 화학 공간에 대한 효율적인 진화 탐색"이라는 제목의 이 연구는 6월 23일 사전 인쇄 플랫폼 arXix에 게재되었습니다.

25개의 분자 설계 알고리즘을 물리치고 Georgia Tech, 토론토 대학, Cornell이 대규모 언어 모델 MOLLEO를 제안했습니다.

논문 링크: https://arxiv.org/abs/2406.16976

분자 발견의 엄청난 계산적 과제

분자 발견은 설계, 합성, 평가 및 개선은 약물 설계, 재료 설계, 에너지 개선, 질병 문제 등을 포함하여 광범위한 실제 적용 범위를 갖습니다. 이 프로세스는 느리고 힘든 경우가 많으며, 복잡한 설계 조건과 종종 값비싼 평가(예: 습식 실험, 생물검정, 컴퓨터 시뮬레이션)가 필요한 분자 특성 평가로 인해 대략적인 계산 평가에도 상당한 리소스가 필요합니다.

따라서 효율적인 분자 검색, 예측 및 생성 알고리즘을 개발하는 것은 발견 과정을 가속화하기 위한 화학 분야의 연구 핫스팟이 되었습니다. 특히, 머신러닝 기반 방법은 유망한 분자 후보를 신속하게 식별하고 제안하는 데 중요한 역할을 해왔습니다.

문제의 중요성으로 인해 분자 최적화는 이미 개발 및 테스트된 20개 이상의 분자 설계 알고리즘을 포함하여 큰 주목을 받았습니다. (그 중 유전 알고리즘 및 강화 학습과 같은 조합 최적화 방법은 다른 생성 모델보다 앞서 있습니다.) 및 지속적인 최적화 알고리즘 ), 자세한 내용은 Nature 하위 저널의 최근 리뷰 기사 를 참조하세요. 가장 효과적인 방법 중 하나는 진화 알고리즘(EA)입니다. 이러한 알고리즘의 특징은 기울기 평가가 필요하지 않기 때문에 분자 발견의 블랙박스 객관적 최적화에 매우 적합합니다.

그러나 이러한 알고리즘의 주요 단점은 작업별 정보를 활용하지 않고 후보 구조를 무작위로 생성하므로 광범위한 목적 함수 평가가 필요하다는 것입니다. 속성을 평가하는 데 비용이 많이 들기 때문에 분자 최적화는 가장 기대되는 속성을 가진 분자 구조를 찾을 뿐만 아니라 목적 함수의 평가 횟수를 최소화합니다(이는 검색 효율성을 높이는 것과 동일함).

최근 LLM은 분자 특성 예측, 최적의 분자 검색, 화학 실험 자동화, 목표 특성을 가진 분자 생성 등 여러 화학 관련 작업에서 몇 가지 기본 기능을 입증했습니다. LLM은 광범위한 작업을 다루는 대규모 텍스트 말뭉치에 대해 교육을 받았기 때문에 일반적인 언어 이해 능력과 기본 화학 지식을 보여 주므로 화학 발견 작업을 위한 흥미로운 도구가 됩니다.

그러나 많은 LLM 기반 방법은 상황 내 학습 및 큐 엔지니어링에 의존합니다. 이는 엄격한 수치 목표를 가진 분자를 설계할 때 문제가 될 수 있습니다. LLM은 정확한 수치 제약 조건을 충족하거나 특정 수치 목표를 최적화하는 데 어려움을 겪을 수 있기 때문입니다. 또한 LLM 힌트에만 의존하는 방법은 물리적 기반이 열악한 분자를 생성하거나 화학 구조로 디코딩할 수 없는 잘못된 SMILES 문자열을 생성할 수 있습니다.

Molecular Language Enhanced Evolutionary Optimization

본 연구에서는 LLM을 EA에 통합하여 생성된 후보의 품질을 향상시키고 최적화 프로세스를 가속화하는 MOLLEO(Molecular Language Enhanced Evolutionary Optimization)를 제안합니다. MOLLEO는 LLM을 유전자 연산자로 활용하여 교차 또는 돌연변이를 통해 새로운 후보를 생성합니다. 우리는 분자 생성을 위해 LLM을 EA 프레임워크에 통합하는 방법을 처음으로 보여줍니다.

이 연구에서는 GPT-4, BioT5 및 MoleculeSTM이라는 서로 다른 기능을 가진 세 가지 언어 모델을 고려했습니다. 우리는 각 LLM을 다양한 교차 및 돌연변이 절차에 통합하고 절제 연구를 통해 디자인 선택을 보여줍니다.

단일 목표 및 다중 목표 최적화를 포함한 다양한 블랙박스 최적화 작업에 대한 실험을 통해 MOLLEO의 우수한 성능을 입증했습니다. 더욱 까다로운 단백질-리간드 도킹을 포함한 모든 작업에서 MOLLEO는 기본 EA 및 25가지 기타 강력한 기본 방법보다 성능이 뛰어납니다. 또한 우리는 ZINC 250K 데이터베이스에서 최고의 JNK3 억제제 분자를 더욱 최적화할 수 있는 MOLLEO의 능력을 입증합니다.

우리의 MOLLEO 프레임워크는 간단한 진화 알고리즘인 Graph-GA 알고리즘을 기반으로 하며 유전 작업에 화학적 인식 LLM을 통합하여 기능을 향상시킵니다.

먼저 문제 설명의 개요를 설명하고 블랙박스 최적화에서 비용이 많이 드는 객관적 평가를 최소화해야 한다는 점을 강조합니다. MOLLEO는 GPT-4, BioT5 및 MoleculeSTM과 같은 LLM을 활용하여 표적 설명에 따라 새로운 후보 분자를 생성합니다.

구체적으로, 교차 단계에서는 두 개의 모 분자를 무작위로 결합하는 대신 LLM을 사용하여 목표 적합도 기능을 최대화하는 분자를 생성합니다. 돌연변이 단계에서 연산자는 대상 설명에 따라 현재 모집단의 가장 적합한 구성원을 돌연변이시킵니다. 그러나 우리는 LLM이 항상 입력 분자보다 적합도가 더 높은 후보를 생성하지 않는다는 점을 발견하여 구조적 유사성을 기반으로 편집된 분자를 필터링하는 선택 압력을 구성했습니다.

실험 결과

MOLLEO를 18개 과제에 대해 평가했습니다. 작업은 PMO 및 TDC 벤치마크 및 데이터베이스에서 선택되며 다음 범주로 나눌 수 있습니다.

  1. 구조 기반 최적화: 대상 분자 공식(isomers_c9h10n2o2pf2cl)을 기반으로 한 이성질체 생성을 포함하여 대상 구조에 따라 분자를 최적화합니다. 스캐폴드 및 하위 구조 모티프(deco_hop, scaffold_hop)의 일치 또는 회피를 기반으로 하는 두 가지 작업입니다.
  2. 이름 기반 최적화: 알려진 약물과 유사한 화합물 찾기(mestranol_similarity, thiothixene_rediscovery)와 약물을 재발견하는 동시에 약물을 재발견하는 세 가지 다중 속성 최적화 작업(MPO)(예: Perindopril, Ranolazine, Sitagliptin)이 포함됩니다. 소수성(LogP) 및 투과성(TPSA). 이러한 작업에는 주로 새로운 분자 설계보다는 기존 약물의 재발견이 포함되었지만 LLM의 근본적인 화학적 최적화 기능을 보여주었습니다.
  3. 속성 최적화: 분자의 약물 유사성을 측정하는 간단한 속성 최적화 작업 QED가 포함되어 있습니다. 그런 다음 우리는 DRD2(도파민 수용체 D2), GSK3β(글리코겐 신타제 키나제-3β) 및 JNK3(c-Jun N-말단 키나제-3) 단백질에 대한 분자의 활성을 측정하는 PMO의 세 가지 작업에 중점을 두었습니다. 또한 단순한 물리화학적 특성보다 실제 약물 설계에 더 가까운 TDC(구조적 약물 설계)에 세 가지 단백질-리간드 도킹 작업을 포함합니다.

우리의 방법을 평가하기 위해 목표 값과 계산 예산을 고려하여 PMO 벤치마크 방법을 따르고 상위 k개 평균 속성 값의 곡선 아래 면적(AUC top-k)과 숫자를 보고합니다. 대상 함수 호출.

비교 벤치마크로는 강화 학습 기반 REINVENT, 기본 진화 알고리즘 Graph-GA, 가우스 프로세스 베이지안 최적화 GP BO 등 PMO 벤치마크의 상위 모델을 사용했습니다.

25개의 분자 설계 알고리즘을 물리치고 Georgia Tech, 토론토 대학, Cornell이 대규모 언어 모델 MOLLEO를 제안했습니다.

그림: 단일 대상 작업의 상위 10 AUC. (출처: 논문)

PMO의 12개 작업에 대해 단일 목표 최적화 실험을 수행한 결과는 위 표에 나와 있습니다. 각 작업의 AUC 상위 10개 점수와 각 모델의 전체 순위를 보고합니다. 결과는 모든 LLM(대형 언어 모델)을 유전 연산자로 사용하면 기본 Graph-GA 및 기타 모든 기준 모델 이상으로 성능을 향상시킬 수 있음을 보여줍니다.

GPT-4는 12개 작업 중 9개 작업에서 모든 모델을 능가하여 분자 생성의 일반적인 대규모 언어 모델로서의 효율성과 전망을 입증했습니다. BioT5는 GPT-4에 가까운 총점으로 모든 테스트 모델 중에서 두 번째로 좋은 결과를 얻었습니다. 이는 도메인 지식에 대해 훈련되고 미세 조정된 작은 모델도 MOLLEO에서 좋은 응용 가능성을 가지고 있음을 나타냅니다.

MOLSTM은 분자의 자연어 설명과 분자의 화학식을 미세 조정한 CLIP 모델을 기반으로 하는 소형 모델입니다. 동일한 자연어 설명에 대한 진화 알고리즘에서 경사 하강 알고리즘을 사용합니다. 다른 새로운 분자를 생성하며 그 성능도 다른 기본 방법보다 뛰어납니다.

25개의 분자 설계 알고리즘을 물리치고 Georgia Tech, 토론토 대학, Cornell이 대규모 언어 모델 MOLLEO를 제안했습니다.

그림: JNK3은 반복 횟수가 증가함에 따라 발생하는 모집단 적합도를 억제합니다. (출처: 논문)

LLM을 EA 프레임워크에 통합하는 효과를 검증하기 위해 JNK3 작업에서 초기 무작위 분자 풀의 점수 분포를 보여줍니다. 그 후, 우리는 풀의 모든 분자에 대해 일련의 편집을 수행하고 편집된 분자의 JNK3 점수 분포를 그렸습니다.

결과에 따르면 LLM에서 편집한 분포는 모두 더 높은 점수 쪽으로 약간 이동되어 LLM이 유용한 수정을 제공한다는 것을 나타냅니다. 그러나 전체 목표 점수는 여전히 낮기 때문에 단일 단계 편집만으로는 충분하지 않으며 여기에는 진화 알고리즘을 사용한 반복 최적화가 필요합니다.

25개의 분자 설계 알고리즘을 물리치고 Georgia Tech, 토론토 대학, Cornell이 대규모 언어 모델 MOLLEO를 제안했습니다.

그림: DRD3, EGFR 또는 아데노신 A2A 수용체 단백질과 도킹되었을 때 상위 10개 분자의 평균 도킹 점수. (출처: 종이)

PMO의 12가지 단일 목표 최적화 작업 외에도 우리는 단일 목표 작업보다 실제 분자 생성 시나리오에 더 가까운 더 까다로운 단백질-리간드 도킹 작업에 대해 MOLLEO를 테스트했습니다. 위 그림은 MOLLEO 및 Graph-GA의 상위 10개 분자의 평균 도킹 점수 대 대상 함수 호출 수의 플롯입니다.

결과는 세 가지 단백질 모두에서 우리 방법으로 생성된 분자의 도킹 점수가 기본 모델의 도킹 점수보다 거의 모두 우수하고 수렴 속도가 더 빠르다는 것을 보여줍니다. 우리가 사용한 세 가지 언어 모델 중에서 BioT5가 가장 잘 수행되었습니다. 실제로 도킹 점수가 향상되고 수렴 속도가 빨라지면 분자를 스크리닝하는 데 필요한 생물검정 횟수가 줄어들어 프로세스의 비용과 시간 효율성이 더욱 높아집니다.

25개의 분자 설계 알고리즘을 물리치고 Georgia Tech, 토론토 대학, Cornell이 대규모 언어 모델 MOLLEO를 제안했습니다.

그림: 다목적 작업을 위한 합계 및 하이퍼볼륨 분수. (출처: 논문)

25개의 분자 설계 알고리즘을 물리치고 Georgia Tech, 토론토 대학, Cornell이 대규모 언어 모델 MOLLEO를 제안했습니다.

그림: 다목적 작업에 대한 Graph-GA 및 MOLLEO의 Pareto 최적 시각화. (출처: 논문)

다목적 최적화의 경우 모든 최적화 목표 점수 합계의 AUC 상위 10과 파레토 최적 세트의 하이퍼볼륨이라는 두 가지 측정항목을 고려합니다. 세 가지 작업에 대한 다중 목표 최적화 결과를 제시합니다. 작업 1과 2는 약물 발견 목표에서 영감을 얻었으며 분자의 QED 최대화, 합성 접근성(SA) 점수 최소화(합성이 더 쉽다는 의미), JNK3(작업 1) 또는 GSK3β에 대한 기여 최대화라는 세 가지 목표를 동시에 최적화하는 것을 목표로 합니다. (작업 2) 바인딩 점수. 작업 3은 QED 및 JNK3 결합 점수 최대화, GSK3β 결합 점수, DRD2 결합 점수 및 SA 점수 최소화라는 5가지 목표의 동시 최적화가 필요하기 때문에 더 어렵습니다.

MOLLEO(GPT-4)는 세 가지 작업 모두에서 하이퍼볼륨과 합산 모두에서 기본 Graph-GA보다 지속적으로 뛰어난 성능을 발휘하는 것으로 나타났습니다. 그림에서는 작업 1과 작업 2의 방법과 Graph-GA의 파레토 최적 세트(객관 공간에서)를 시각화합니다. 여러 대상이 도입되면 오픈 소스 언어 모델의 성능이 저하됩니다. 우리는 이러한 성능 저하가 대량의 정보 밀도 컨텍스트를 캡처할 수 없는 데서 비롯될 수 있다고 추측합니다.

25개의 분자 설계 알고리즘을 물리치고 Georgia Tech, 토론토 대학, Cornell이 대규모 언어 모델 MOLLEO를 제안했습니다.

그림: ZINC 250K에서 최고의 분자를 사용하여 MOLLEO를 초기화합니다. (출처: 논문)

진화 알고리즘의 궁극적인 목표는 초기 분자 풀의 특성을 개선하고 새로운 분자를 발견하는 것입니다. 새로운 분자를 탐색하는 MOLLEO의 능력을 탐구하기 위해 가장 좋은 분자 풀을 초기화합니다. ZINC 250K의 분자를 분석한 다음 MOLLEO 및 Graph-GA를 사용하여 최적화합니다. JNK3 작업에 대한 실험 결과는 우리의 알고리즘이 기본 모델 Graph-GA보다 지속적으로 성능이 뛰어나고 기존 데이터 세트에서 발견된 최고의 분자를 개선할 수 있음을 보여줍니다.

또한 BioT5의 훈련 세트는 ZINC20 데이터베이스(14억 개의 화합물 포함)이고 MoleculeSTM의 훈련 세트는 PubChem 데이터베이스(약 250,000개의 분자)라는 점도 확인했습니다. JNK3 작업에서 각 모델에 의해 생성된 최종 분자가 해당 데이터 세트에 나타나는지 확인했습니다. 생성된 분자는 데이터 세트의 분자와 겹치지 않는 것으로 나타났습니다. 이는 모델이 훈련 세트에 존재하지 않았던 새로운 분자를 생성할 수 있음을 보여줍니다.

약물 발견, 재료, 생체분자 설계에 적용 가능

분자 발견 및 설계는 수많은 실제 응용이 가능한 풍부한 분야로, 많은 부분이 현재 연구 범위를 벗어나지만 제안된 프레임워크와 여전히 관련이 있습니다. MOLLEO는 LLM과 EA 알고리즘을 결합하여 순수 텍스트를 통해 유연한 알고리즘 프레임워크를 제공합니다. 앞으로 MOLLEO는 약물 발견, 값비싼 컴퓨터 시뮬레이션, 재료 또는 대형 생체분자 설계와 같은 시나리오에 적용될 수 있습니다.

향후 연구 목표값, 발견 속도 등 생성된 분자의 품질을 향상시키는 방법에 더욱 집중하겠습니다. LLM이 계속 발전함에 따라 MOLLEO 프레임워크의 성능도 계속 향상되어 생성 화학 응용 분야에서 유망한 도구가 될 것으로 기대합니다.

위 내용은 25개의 분자 설계 알고리즘을 물리치고 Georgia Tech, 토론토 대학, Cornell이 대규모 언어 모델 MOLLEO를 제안했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.