>  기사  >  기술 주변기기  >  "두 세계의 최고", 분자를 처음부터 설계, 화학 언어 모델링을 위한 딥 러닝 아키텍처 S4

"두 세계의 최고", 분자를 처음부터 설계, 화학 언어 모델링을 위한 딥 러닝 아키텍처 S4

WBOY
WBOY원래의
2024-08-05 20:58:22926검색

두 세계의 최고, 분자를 처음부터 설계, 화학 언어 모델링을 위한 딥 러닝 아키텍처 S4

Editor | KX

제너레이티브 딥 러닝이 약물 설계를 바꾸고 있습니다. 분자를 일련의 분자로 생성하는 CLM(화학 언어 모델)은 이 프로세스에서 특히 중요합니다.

최근 네덜란드 아인트호벤 공과대학의 연구원들은 새로운 약물 설계에 최신 딥 러닝 아키텍처(S4)를 도입했습니다.

S4(Structured State Space Sequence) 모델은 시퀀스의 전역 속성을 학습하는 데 탁월한 성능을 발휘하는데, S4가 처음부터 설계한 화학 언어 모델링을 발전시킬 수 있을까요?

답변을 제공하기 위해 연구원들은 생체 활성 화합물 식별, 약물 유사 분자 및 천연물의 설계와 같은 다양한 약물 발견 작업에서 최첨단 CLM에 대해 S4를 체계적으로 벤치마킹했습니다. S4는 복잡한 분자 특성을 학습하면서 다양한 지지체를 탐색할 수 있는 뛰어난 능력을 가지고 있습니다.

마지막으로 S4가 설계한 분자 10개 중 8개는 키나제 억제제에 전향적으로 적용했을 때 분자 역학 시뮬레이션을 통해 높은 활성을 보일 것으로 예측되었습니다.

요약하자면, S4는 화학 언어 모델링, 특히 생물학적 활동과 복잡한 분자 특성을 포착하는 데 큰 잠재력을 가지고 있습니다. 상태공간 모델이 분자 작업에 적용된 것은 이번이 처음입니다.

관련 연구는 "구조화된 상태 공간 시퀀스 모델을 사용한 화학 언어 모델링"이라는 제목으로 "Nature Communications" 7월 22일자에 게재되었습니다.

두 세계의 최고, 분자를 처음부터 설계, 화학 언어 모델링을 위한 딥 러닝 아키텍처 S4

논문 링크: https://www.nature.com/articles/s41467-024-50469-9

원하는 특성을 가진 분자를 처음부터 설계하는 것은 "건초 더미 속의 바늘" 문제입니다. 최대 10^60개의 작은 분자를 포함하는 화학 우주는 아직 거의 알려지지 않았습니다.

생성적 딥 러닝은 직접 설계한 규칙 없이 원하는 분자를 생성할 수 있으므로 시간을 절약하고 저렴한 비용으로 화학 세계를 탐색할 수 있습니다. 특히 CLM은 실험적으로 검증된 생체 활성 디자인을 개발했으며 강력한 분자 생성기로 두각을 나타내고 있습니다.

CLM은 시퀀스 처리용으로 개발된 알고리즘을 사용하여 "화학 언어", 즉 화학적으로 유효하고(구문) 원하는 속성(의미)을 갖는 분자를 생성하는 방법을 학습합니다. 이는 단순화된 분자 입력 라인 입력 시스템(SMILES)과 같은 문자열 기호로 분자 구조를 표현함으로써 달성됩니다. 그런 다음 이러한 분자 문자열은 모델 훈련 및 텍스트 형식의 후속 분자 생성에 사용됩니다.

두 세계의 최고, 분자를 처음부터 설계, 화학 언어 모델링을 위한 딥 러닝 아키텍처 S4

그림: 화학 언어 모델링을 위한 구조화된 상태 공간 시퀀스(S4) 모델의 주요 개념. (출처: Paper)

CLM 아키텍처:

  • Long Short-Term Memory(LSTM) 모델
  • Transformer Architecture

Structured State Space Sequence Model(S4):

  • 신규 멤버 빠르게 개발 중
  • 오디오, 이미지 및 텍스트 생성에 탁월함
  • "이중 특성" 있음:

    • 전체 입력 시퀀스에 대해 훈련하여 복잡한 전역 속성 학습
    • 한 번에 하나의 문자열 요소 생성

응용 프로그램:

  • 연구원들은 SMILES 문자열의 화학 언어 모델링에 S4를 적용합니다.
  • 약물 디자인과 관련된 다양한 작업에 대한 벤치마킹:

    • 생물학적 활동 학습
    • 화학 우주 탐사
    • 천연 제품 디자인

디자인 약물 유사 분자 및 천연물:

  • 연구원들은 약물 유사 분자 및 천연물의 설계와 같은 최첨단 CLM
  • 에 대해 S4를 벤치마킹했습니다.
  • 먼저 S4의 약물 설계 능력을 분석했습니다. -ChEMBL 데이터베이스에서 추출된 작은 분자(SMILES 길이가 100개 미만의 토큰)와 유사함

    두 세계의 최고, 분자를 처음부터 설계, 화학 언어 모델링을 위한 딥 러닝 아키텍처 S4

    1. 모든 CLM은 91% 이상의 유효 분자, 91%의 고유 분자, 81% 이상의 새로운 분자를 생성했습니다.
  • S4는 기준선(약 4000~12,000개 이상)보다 더 많은 새로운 분자를 생성하여 가장 효율적이고 독특하며 새로운 분자를 설계하고 SMILES 문자열의 "화학 문법"을 학습하는 좋은 능력을 보여줍니다.
  • 기존의 새로운 설계 방법과 비교한 S4의 잠재력은 MOSES 벤치마크에서 더욱 확인되었습니다. 여기서 S4는 지속적으로 최고 성능의 딥 러닝 방법 중 하나로 평가됩니다.
  • S4는 또한 약물 유사 분자보다 더 까다로운 분자 물질에 ​​대해 추가 테스트를 거쳤습니다.
  • 이를 위해 연구자들은 천연물(NP)을 엔지니어링하는 능력을 평가했습니다.
  • 합성 소분자와 비교하여 NP는 더 복잡한 분자 구조와 고리 시스템을 갖는 경향이 있을 뿐만 아니라 sp3 혼성화 탄소 원자와 키랄 중심의 비율도 더 높습니다.
  • 이러한 기능은 평균적으로 더 긴 SMILES 시퀀스에 해당하고 더 긴 범위의 종속성을 가지며 천연 제품을 CLM 테스트 케이스에 도전하게 만듭니다.

    두 세계의 최고, 분자를 처음부터 설계, 화학 언어 모델링을 위한 딥 러닝 아키텍처 S4


    모든 CLM은 천연 제품을 디자인할 수 있지만 약물과 같은 분자에 비해 성능이 낮습니다. S4 설계는 S4보다 약 6000~12,000개 더 많은 분자(7~13% 우수)로 유효 분자 수가 가장 많은 반면, LSTM은 S4보다 약 2000개 더 많은 분자(2%)로 가장 높은 참신성을 갖습니다.
    마지막으로, 천연 제품과 같은 더 큰 분자를 설계할 때 실제 적용 가능성을 테스트하기 위해 SMILES 길이를 늘릴 때 CLM 아키텍처의 훈련 및 생성 속도도 분석되었습니다. 분석에서는 이중 특성으로 인해 S4가 훈련 중에 GPT만큼 빠르며(LSTM보다 ~1.3배 빠름) 생성 측면에서 가장 빠르다는 점을 강조합니다. 이는 GPT 및 LSTM에 비해 "두 세계의 최고"를 제공하는 효율적인 분자 설계 방법으로 S4의 도입을 더욱 지지합니다.
    Prospective de novo design
    S4를 사용하는 연구자들은 종양 치료의 관련 표적인 MAPK1(미토겐 활성화 단백질 키나제 1) 억제제 설계에 초점을 맞춘 전향적 in silico 연구를 수행했습니다. 그런 다음 설계의 추정 생물학적 활성을 분자 역학(MD)으로 평가했습니다.

    두 세계의 최고, 분자를 처음부터 설계, 화학 언어 모델링을 위한 딥 러닝 아키텍처 S4

    그림: S4를 사용한 추정 MAPK1 억제제의 유망한 새로운 설계. (출처: 논문) S4 모델을 미세 조정한 후 미세 조정된 모델의 마지막 5개 에포크를 사용하여 256K 분자를 생성했습니다. 디자인은 로그 우도 점수와 트레이닝 세트와의 스캐폴드 유사성에 따라 순위가 매겨지고 필터링되었으며, 가장 높은 점수를 받은 10개의 분자는 MD 시뮬레이션을 사용하여 추가로 특성화되었습니다.
    디자인 10개 중 8개는 MD에 의해 의도된 표적에 대해 생리활성을 나타낼 것으로 예측되었으며, 예측된 친화도는 가장 가까운 미세 조정 분자와 비슷하거나 더 높으며, 이러한 결과는 새로운 약물 디자인을 위한 S4의 잠재력을 더욱 확증해 줍니다.
    분자 S4의 기회 요약하자면, 본 연구는 구조화된 상태 공간(S4)에 중점을 두고 상태 공간 모델을 화학적 언어 모델링에 최초로 도입한 것입니다. 훈련 중 컨볼루션 및 루프 생성을 포함하는 S4의 고유한 이중 특성으로 인해 SMILES 문자열에서 시작하는 새로운 설계에 특히 적합합니다.
    연구원들은 다양한 약물 발굴 작업에 대해 GPT 및 LSTM과 체계적으로 비교하여 S4의 장점을 밝혔습니다. 루프 생성(LSTM 및 S4)은 화학 문법 학습 및 다양한 스캐폴드 탐색에 우수하지만 전체 앙상블 학습에는 효과적이지 않습니다. SMILES 시퀀스(GPT 및 S4)는 생물학적 활동과 같은 특정 복잡한 특성을 포착하는 데 효과적입니다.
    S4는 "두 세계의 최고"라는 이중 특성을 가지고 있습니다. 효율적이고 다양한 분자를 설계하는 데 있어 LSTM과 같거나 더 나은 성능을 발휘하며, 계산 효율성을 유지하면서 복잡한 분자 특성을 포착하는 데 체계적으로 기준선을 능가합니다. MAPK1 억제에
    S4를 적용하는 것은 MD 시뮬레이션을 통해 검증되었으며, 이는 강력한 생체 활성 분자를 설계할 수 있는 잠재력을 더욱 입증합니다. 앞으로 연구원들은 S4를 습식 실험실 실험과 결합하여 현장에서의 영향력을 강화할 것입니다.
    더 긴 서열(예: 거대고리 펩타이드 및 단백질 서열) 및 기타 분자 작업(예: 유기 반응 계획 및 구조 기반 약물 설계)에서의 잠재력과 같이 S4의 분자 과학에서는 아직 탐구되지 않은 많은 측면이 있습니다.
    미래에는 분자 발견에서 S4의 적용이 계속 증가할 것이며 LSTM 및 GPT와 같이 널리 사용되는 화학 언어 모델을 대체할 수 있습니다.

위 내용은 "두 세계의 최고", 분자를 처음부터 설계, 화학 언어 모델링을 위한 딥 러닝 아키텍처 S4의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.