OpenAI의 GPT 및 Meta AI의 Llama와 같은 대규모 언어 모델(LLM)은 화학정보학 분야, 특히 단순화된 분자 입력 라인 입력 시스템(SMILES) 측면을 이해하는 데 있어 잠재력이 점점 더 인정받고 있습니다. 이러한 LLM은 SMILES 문자열을 벡터 표현으로 디코딩할 수도 있습니다.
캐나다 University of Windsor의 연구원들은 분자 특성 예측과 약물-약물 상호 작용 예측이라는 두 가지 주요 응용 분야에 중점을 두고 다운스트림 작업에 SMILES 문자열을 삽입하기 위해 GPT 및 Llama에 대해 사전 훈련된 모델의 성능을 SMILES와 비교했습니다.
이 연구는 "대규모 언어 모델이 분자를 이해할 수 있는가?"라는 제목으로 2024년 6월 25일 "BMC Bioinformatics"에 게재되었습니다.
1. 약물 발견에 분자 임베딩 적용분자 임베딩은 약물 발견에서 중요한 작업이며 분자 특성 예측, 약물-표적 상호 작용(DTI) 예측 및 약물-약물 상호 작용 기능(DDI)에 널리 사용됩니다. ) 예측 및 기타 관련 작업.
2. 분자 임베딩 기술
분자 임베딩 기술은 인기 있는 SMILES 표현과 같은 분자 구조 연결 정보 또는 구조의 선 주석을 인코딩하는 분자 그래프에서 특징을 학습할 수 있습니다.
3. SMILES 문자열의 분자 임베딩
SMILES 문자열을 통한 분자 임베딩은 정적 단어 임베딩에서 상황에 맞는 사전 학습 모델에 이르기까지 언어 모델링의 발전과 함께 발전했습니다. 이러한 임베딩 기술은 관련 구조 및 화학적 정보를 간결한 수치 표현으로 포착하는 것을 목표로 합니다.
그림: 약용 화학 표현. (출처: Paper)기본 가정은 유사한 구조를 가진 분자가 비슷한 방식으로 행동한다는 것입니다. 이를 통해 기계 학습 알고리즘이 특성 예측 및 약물 발견 작업을 위한 분자 구조를 처리하고 분석할 수 있습니다.
LLM의 획기적인 발전과 함께 중요한 질문은 LLM이 분자를 이해하고 분자 데이터를 기반으로 추론을 할 수 있는지 여부입니다.
더 구체적으로 LLM이 고품질 의미 표현을 생성할 수 있나요?
Shaghayegh Sadeghi, Alioune Ngom Jianguo Lu 및 Windsor 대학의 다른 사람들은 스마일을 효과적으로 삽입하는 이러한 모델의 능력을 추가로 탐구했습니다. 현재 이 기능은 부분적으로 API 호출 비용 때문에 제대로 활용되지 않고 있습니다.
연구원들은 Llama를 사용하여 생성된 SMILES 임베딩이 분자 특성 및 DDI 예측 작업 모두에서 GPT를 사용하여 생성된 SMILES 임베딩보다 더 나은 성능을 발휘한다는 사실을 발견했습니다.
그림: 분류 및 회귀 작업의 결과. (출처: 논문)위 내용은 Llama 분자 삽입이 GPT보다 낫습니다. LLM이 분자를 이해할 수 있습니까? Meta는 이번 라운드에서 OpenAI를 이겼습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!