ホームページ >テクノロジー周辺機器 >AI >Llama 分子の埋め込みは GPT よりも優れていますが、LLM は分子を理解できますか?このラウンドで Meta は OpenAI に勝利しました

Llama 分子の埋め込みは GPT よりも優れていますが、LLM は分子を理解できますか?このラウンドで Meta は OpenAI に勝利しました

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBオリジナル: 2024-07-16 13:33:18725ブラウズ

Editor | Radish Skin

OpenAI の GPT や Meta AI の Llama などの大規模言語モデル (LLM) は、ケモインフォマティクスの分野、特に単純化された分子入力ライン入力システム (SMILES) の側面を理解する際にその可能性がますます認識されています。これらの LLM は、SMILES 文字列をベクトル表現にデコードすることもできます。

カナダのウィンザー大学の研究者らは、分子特性予測と薬物相互作用予測という 2 つの重要なアプリケーションに焦点を当て、下流タスクに SMILES 文字列を埋め込むために、GPT および Llama で事前トレーニングされたモデルのパフォーマンスを SMILES と比較しました。

この研究は「大規模言語モデルは分子を理解できるか?」というタイトルで、2024 年 6 月 25 日に「BMC Bioinformatics」に掲載されました。

Llama 分子の埋め込みは GPT よりも優れていますが、LLM は分子を理解できますか?このラウンドで Meta は OpenAI に勝利しました

1. 創薬における分子埋め込みの応用

分子埋め込みは創薬における重要なタスクであり、分子特性予測、薬物標的相互作用 (DTI) 予測、薬物間相互作用関数 (DDI) で広く使用されています。 ) 予測およびその他の関連タスク。

2. 分子埋め込み技術

分子埋め込み技術は、一般的な SMILES 表現など、分子の構造接続情報や構造の線注釈をコード化した分子グラフから特徴を学習できます。

3. SMILES 文字列への分子埋め込み

SMILES 文字列による分子埋め込みは、静的な単語埋め込みからコンテキスト化された事前トレーニング済みモデルまで、言語モデリングの進歩と並行して進化してきました。これらの埋め込み技術は、関連する構造および化学情報をコンパクトな数値表現で取得することを目的としています。

Llama 分子の埋め込みは GPT よりも優れていますが、LLM は分子を理解できますか?このラウンドで Meta は OpenAI に勝利しました

イラスト: 医薬品化学の表現。 (出典: 論文)

基本的な仮定は、類似した構造を持つ分子は同様に動作するということです。これにより、機械学習アルゴリズムが特性予測や創薬タスクのために分子構造を処理および分析できるようになります。

LLM の画期的な進歩により、顕著な疑問は、LLM が分子を理解し、分子データに基づいて推論できるかどうかということです。

より具体的には、LLM は高品質の意味表現を生成できますか?

ウィンザー大学の Shaghayegh Sadeghi 氏、Alioune Ngom Jianguo Lu 氏らは、SMILES を効果的に埋め込むこれらのモデルの能力をさらに調査しました。現在、この機能は、おそらく API 呼び出しのコストのせいで、十分に研究されていません。

研究者らは、分子特性と DDI 予測タスクの両方において、Llama を使用して生成された SMILES 埋め込みが、GPT を使用して生成された SMILES 埋め込みよりも優れたパフォーマンスを発揮することを発見しました。

Llama 分子の埋め込みは GPT よりも優れていますが、LLM は分子を理解できますか?このラウンドで Meta は OpenAI に勝利しました

図: 分類タスクと回帰タスクの結果。 (出典: 論文)
特に、Llama ベースの SMILES 埋め込みは、分子予測タスクでは SMILES で事前トレーニングされたモデルと同等の結果を示し、DDI 予測タスクでは事前トレーニングされたモデルを上回ります。
これによれば、研究チームは次のように結論付けています:
(1) LLM のパフォーマンスは確かに従来の手法よりも優れています。 (2) パフォーマンスはタスクに依存し、場合によってはデータに依存します。 (3) より一般的なタスクについてトレーニングした場合でも、LLM の新しいバージョンは古いバージョンよりも改善されています。 (4) Llama の埋め込みは、一般に GPT 埋め込みよりも優れています。 (5) さらに、Llama と Llama2 は埋め込みパフォーマンスの点で非常に近いことが観察されます。

Llama 分子の埋め込みは GPT よりも優れていますが、LLM は分子を理解できますか?このラウンドで Meta は OpenAI に勝利しました

イラスト: Llama と Llama2 のパフォーマンスの比較。 (出典: 論文) 全体として、この研究は、GPT や Llama などの LLM の分子埋め込みの可能性を強調しています。
SMILES 文字列から分子埋め込みを生成する際のパフォーマンスが優れているため、チームは GPT よりも Llama モデルを特に推奨しています。これらの発見は、ラマが分子特性と薬物相互作用の予測に特に有効である可能性を示唆しています。
Llama や GPT のようなモデルは、(ChemBERTa や MolFormer-XL のような特殊なモデルとは異なり) SMILES 文字列埋め込み用に特別に設計されていませんが、依然として競争力を示しています。この研究は、LLM 分子埋め込みにおける将来の改善のための基礎を築きます。
将来的には、チームは、Llama トークン化の微調整や変更など、自然言語文埋め込み技術に触発された LLM 分子埋め込みの品質の向上に焦点を当てる予定です。
GitHub: https://github.com/sshaghayeghs/LLaMA-VS-GPT
紙のリンク: https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-024-05847-x

以上がLlama 分子の埋め込みは GPT よりも優れていますが、LLM は分子を理解できますか?このラウンドで Meta は OpenAI に勝利しましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

字符串 github 算法 https gpt llama

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：言語の神経活性化が初めて細胞レベルに局在化した次の記事：言語の神経活性化が初めて細胞レベルに局在化した

続きを見る