ホームページ  >  記事  >  テクノロジー周辺機器  >  上海交通大学の大紅良研究グループと上海AI研究所チームが、言語モデルに基づいたタンパク質機能の少数サンプル予測手法FSFPを発表し、Natureサブジャーナルに掲載された。

上海交通大学の大紅良研究グループと上海AI研究所チームが、言語モデルに基づいたタンパク質機能の少数サンプル予測手法FSFPを発表し、Natureサブジャーナルに掲載された。

王林
王林オリジナル
2024-07-11 20:10:28778ブラウズ

上海交通大学の大紅良研究グループと上海AI研究所チームが、言語モデルに基づいたタンパク質機能の少数サンプル予測手法FSFPを発表し、Natureサブジャーナルに掲載された。

編集者 | ScienceAI

最近、上海交通大学自然科学研究所/物理天文学部/張江高等研究院/薬学部のホン・リャン教授の研究グループと、上海人工知能研究所はタンパク質の突然変異について話しました - 特性予測において重要な進歩が見られました。

この研究では新しいトレーニング戦略が採用されており、非常に少ないウェット実験データを使用した突然変異特性予測において、従来のタンパク質の事前トレーニング済み大規模モデルのパフォーマンスが大幅に向上します。

研究結果は「少数ショット学習による最小限のウェットラボデータによるタンパク質言語モデルの効率の向上」と題され、2024年7月2日に「Nature Communications」に掲載されました。

上海交通大学の大紅良研究グループと上海AI研究所チームが、言語モデルに基づいたタンパク質機能の少数サンプル予測手法FSFPを発表し、Natureサブジャーナルに掲載された。

論文リンク:
  • https://www.nature.com/articles/s41467-024-49798-6

研究の背景

酵素工学では、タンパク質を得るには突然変異とタンパク質のスクリーニングが必要です。より良いプロテイン製品。従来の湿式実験方法では実験を繰り返す必要があり、時間と労力がかかります。

ディープラーニング手法はタンパク質の突然変異変換を加速できますが、モデルをトレーニングするには大量のタンパク質突然変異データが必要です。高品質の突然変異データの取得は、従来の湿式実験では制限されています。

大量の湿った実験データを必要とせずに、タンパク質の突然変異機能を正確に予測できる方法が緊急に必要とされています。

研究方法

この研究は、メタ学習、ランキング学習、パラメータの効率的な微調整を組み合わせて、わずか数十のウェット実験データを使用してタンパク質の事前トレーニングモデルをトレーニングするFSFPメソッドを提案し、突然変異を大幅に改善します・物性予測効果。

FSFP メソッド:

  • タンパク質の事前トレーニング済みモデルを使用して、ターゲットタンパク質と ProteinGym のタンパク質の間の類似性を評価します。
  • ターゲットタンパク質に最も近い 2 つの ProteinGym データセットをメタ学習補助タスクとして選択します。
  • GEMME のターゲットタンパク質のスコアリングデータを 3 番目の補助タスクとして使用します。
  • ランキング学習損失関数と Lora トレーニング法を使用して、少量のウェット実験データでタンパク質の事前トレーニング モデルをトレーニングします。

テスト結果は、元の予測相関が 0.1 未満であっても、わずか 20 個のウェット実験データを使用してモデルをトレーニングした後、FSFP メソッドにより相関を 0.5 以上に高めることができることを示しています。

上海交通大学の大紅良研究グループと上海AI研究所チームが、言語モデルに基づいたタンパク質機能の少数サンプル予測手法FSFPを発表し、Natureサブジャーナルに掲載された。

イラスト: FSFP の概要。 (出典:論文)

研究結果
同時に、FSFPの有効性を研究するため。タンパク質 Phi29 修飾の特定のケースでウェット実験を実施しましたが、モデルのトレーニングに 20 個のウェット実験データのみを使用した場合、FSFP は元のタンパク質の事前トレーニング済みモデル ESM-1v の上位 20 個の単一点突然変異を予測できました。陽性率は 25% 増加し、10 件近くの新たな陽性単一点変異が見つかりました。

上海交通大学の大紅良研究グループと上海AI研究所チームが、言語モデルに基づいたタンパク質機能の少数サンプル予測手法FSFPを発表し、Natureサブジャーナルに掲載された。

イラスト: FSFP を使用した Phi29 のエンジニアリング。 (出典: 論文)

概要

この研究では、著者はタンパク質の事前トレーニングモデルに基づいた新しい微調整トレーニング方法FSFPを提案しました。

FSFPは、メタ学習、ランキング学習、効率的なパラメータ微調整技術を包括的に利用して、わずか20個のランダムなウェット実験データを使用してタンパク質事前トレーニングモデルを効率的にトレーニングし、モデルの単一点突然変異予測陽性率を大幅に向上させることができます。 。

上記の結果は、FSFP 法が現在のタンパク質工学における高い実験サイクルを解決し、実験コストを削減する上で非常に重要であることを示しています。

著者情報

自然科学アカデミー/物理天文学部/張江高等研究所のHong Liang教授と、上海人工知能研究所の若手研究者Tan Pengが責任著者です。

上海交通大学物理天文学部の博士研究員 Zhou Ziyi 氏、修士学生 Zhang Liang 氏、博士課程学生 Yu Yuanxi 氏、生命理工学部博士課程学生 Wu Banghao 氏が共同筆頭著者です。

以上が上海交通大学の大紅良研究グループと上海AI研究所チームが、言語モデルに基づいたタンパク質機能の少数サンプル予測手法FSFPを発表し、Natureサブジャーナルに掲載された。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。