>  기사  >  기술 주변기기  >  Llama 분자 삽입이 GPT보다 낫습니다. LLM이 분자를 이해할 수 있습니까? Meta는 이번 라운드에서 OpenAI를 이겼습니다.

Llama 분자 삽입이 GPT보다 낫습니다. LLM이 분자를 이해할 수 있습니까? Meta는 이번 라운드에서 OpenAI를 이겼습니다.

WBOY
WBOY원래의
2024-07-16 13:33:18644검색

Llama 분자 삽입이 GPT보다 낫습니다. LLM이 분자를 이해할 수 있습니까? Meta는 이번 라운드에서 OpenAI를 이겼습니다.

Editor | Radish Skin

OpenAI의 GPT 및 Meta AI의 Llama와 같은 대규모 언어 모델(LLM)은 화학정보학 분야, 특히 단순화된 분자 입력 라인 입력 시스템(SMILES) 측면을 이해하는 데 있어 잠재력이 점점 더 인정받고 있습니다. 이러한 LLM은 SMILES 문자열을 벡터 표현으로 디코딩할 수도 있습니다.

캐나다 University of Windsor의 연구원들은 분자 특성 예측과 약물-약물 상호 작용 예측이라는 두 가지 주요 응용 분야에 중점을 두고 다운스트림 작업에 SMILES 문자열을 삽입하기 위해 GPT 및 Llama에 대해 사전 훈련된 모델의 성능을 SMILES와 비교했습니다.

이 연구는 "대규모 언어 모델이 분자를 이해할 수 있는가?"라는 제목으로 2024년 6월 25일 "BMC Bioinformatics"에 게재되었습니다.

Llama 분자 삽입이 GPT보다 낫습니다. LLM이 분자를 이해할 수 있습니까? Meta는 이번 라운드에서 OpenAI를 이겼습니다.

1. 약물 발견에 분자 임베딩 적용

분자 임베딩은 약물 발견에서 중요한 작업이며 분자 특성 예측, 약물-표적 상호 작용(DTI) 예측 및 약물-약물 상호 작용 기능(DDI)에 널리 사용됩니다. ) 예측 및 기타 관련 작업.

2. 분자 임베딩 기술

분자 임베딩 기술은 인기 있는 SMILES 표현과 같은 분자 구조 연결 정보 또는 구조의 선 주석을 인코딩하는 분자 그래프에서 특징을 학습할 수 있습니다.

3. SMILES 문자열의 분자 임베딩

SMILES 문자열을 통한 분자 임베딩은 정적 단어 임베딩에서 상황에 맞는 사전 학습 모델에 이르기까지 언어 모델링의 발전과 함께 발전했습니다. 이러한 임베딩 기술은 관련 구조 및 화학적 정보를 간결한 수치 표현으로 포착하는 것을 목표로 합니다.

Llama 분자 삽입이 GPT보다 낫습니다. LLM이 분자를 이해할 수 있습니까? Meta는 이번 라운드에서 OpenAI를 이겼습니다.

그림: 약용 화학 표현. (출처: Paper)

기본 가정은 유사한 구조를 가진 분자가 비슷한 방식으로 행동한다는 것입니다. 이를 통해 기계 학습 알고리즘이 특성 예측 및 약물 발견 작업을 위한 분자 구조를 처리하고 분석할 수 있습니다.

LLM의 획기적인 발전과 함께 중요한 질문은 LLM이 분자를 이해하고 분자 데이터를 기반으로 추론을 할 수 있는지 여부입니다.

더 구체적으로 LLM이 고품질 의미 표현을 생성할 수 있나요?

Shaghayegh Sadeghi, Alioune Ngom Jianguo Lu 및 Windsor 대학의 다른 사람들은 스마일을 효과적으로 삽입하는 이러한 모델의 능력을 추가로 탐구했습니다. 현재 이 기능은 부분적으로 API 호출 비용 때문에 제대로 활용되지 않고 있습니다.

연구원들은 Llama를 사용하여 생성된 SMILES 임베딩이 분자 특성 및 DDI 예측 작업 모두에서 GPT를 사용하여 생성된 SMILES 임베딩보다 더 나은 성능을 발휘한다는 사실을 발견했습니다.

Llama 분자 삽입이 GPT보다 낫습니다. LLM이 분자를 이해할 수 있습니까? Meta는 이번 라운드에서 OpenAI를 이겼습니다.

그림: 분류 및 회귀 작업의 결과. (출처: 논문)
특히 Llama 기반 SMILES 임베딩은 분자 예측 작업에서 사전 훈련된 SMILES 모델과 비슷한 결과를 보여주며 DDI 예측 작업에서는 사전 훈련된 모델보다 성능이 뛰어납니다.
이에 따르면 팀은 다음과 같은 결론을 내렸습니다.
(1) LLM은 기존 방법보다 더 나은 성능을 발휘합니다. (2) 성능은 작업에 따라 달라지며 때로는 데이터에 따라 달라집니다. (3) 보다 일반적인 작업에 대해 교육을 받은 경우에도 새 버전의 LLM은 이전 버전보다 향상됩니다. (4) Llama의 임베딩은 일반적으로 GPT 임베딩보다 좋습니다. (5) 또한, Llama와 Llama2는 임베딩 성능 측면에서 매우 유사하다는 것을 알 수 있습니다.

Llama 분자 삽입이 GPT보다 낫습니다. LLM이 분자를 이해할 수 있습니까? Meta는 이번 라운드에서 OpenAI를 이겼습니다.

그림: Llama와 Llama2 성능 비교. (출처: 논문) 전반적으로 이 연구는 분자 임베딩을 위한 GPT 및 Llama와 같은 LLM의 잠재력을 강조합니다.
팀에서는 특히 SMILES 문자열에서 분자 임베딩을 생성하는 성능이 뛰어나기 때문에 GPT보다 Llama 모델을 권장합니다. 이러한 발견은 라마가 분자 특성과 약물 상호 작용을 예측하는 데 특히 효과적일 수 있음을 시사합니다.
Llama 및 GPT와 같은 모델은 (ChemBERTa 및 MolFormer-XL과 같은 전문 모델과 달리) SMILES 문자열 임베딩용으로 특별히 설계되지는 않았지만 여전히 경쟁력을 보여줍니다. 이 연구는 LLM 분자 임베딩의 향후 개선을 위한 토대를 마련합니다.
앞으로 팀은 Llama 토큰화 미세 조정 및 수정과 같은 자연어 문장 임베딩 기술에서 영감을 받은 LLM 분자 임베딩의 품질을 향상시키는 데 집중할 것입니다.
GitHub: https://github.com/sshaghayeghs/LLaMA-VS-GPT
논문 링크: https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-024-05847-x

위 내용은 Llama 분자 삽입이 GPT보다 낫습니다. LLM이 분자를 이해할 수 있습니까? Meta는 이번 라운드에서 OpenAI를 이겼습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.